spark任务executor心跳丢失
【摘要】 场景一:driver日志中有executor丢失情况,或者在原生页面看到很多executor的状态是deaddriver日志中搜索Lost executor,如果有打印:Executor heartbeat timed out after xxxms查看executor日志在同一时间点是否有长时间gc,搜索“real=”解决方法:调整executor.cores与spark.executor...
场景一:driver日志中有executor丢失情况,或者在原生页面看到很多executor的状态是dead
driver日志中搜索Lost executor,如果有打印:Executor heartbeat timed out after xxxms
查看executor日志在同一时间点是否有长时间gc,搜索“real=”
解决方法:
- 调整executor.cores与spark.executor.memory的比值,一般在1:4~5
- 调整executor.memoryOverhead
- 如果是个别executor出现心跳丢失,还需要确认是否存在数据倾斜
场景二:executor上报心跳出现超时:Futures timed out after ****
spark.executor.heartbeatInterval = 10s 调整心跳间隔,默认10s
spark.executor.heartbeat.maxFailures=60 上报心跳的重试次数,默认60次
spark客户端内,相关网络超时参数spark.executor.heartbeatInterval设置为1200s,这些参数均是在客户端设置生效
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)