他的回复:
问题一:怎么排查checkpoint为什么慢?从截图中可以看到,每次checkpoint失败都属于超时,并且只有一个subTask超时(总共240个,239个收到了checkpoint ack响应),基于以上情况,建议排查步骤如下:(1)找出哪一个subTask checkpoint超时a、根据失败的checkpointID,去jobmanager日志中查看哪一个task超时,如下图,第二个参数为task的ExecutionIdb、用taskExecutionId在jobManager日志中查找所属的TaskManager是哪一个(2)查看对应的taskmanager日志,分析具体超时原因问题二:checkpoint sync和async分别是做什么的(1)checkpoint sync:对状态进行deep copy,并生成FutureTask用于写状态到状态后端(2)checkpoint async:异步调用FutureTask,调用成功后,向Checkpoint Coordinator发送ACK响应常见checkpoint慢的原因1、数据倾斜导致个别subTask state过大2、cpu密集型计算,导致TM的cpu一直在处理业务数据3、TM内存设置不合理4、状态过大带宽不足5、背压