spark任务executor心跳丢失

举报
顾先生啊 发表于 2022/12/27 17:24:04 2022/12/27
【摘要】 场景一:driver日志中有executor丢失情况,或者在原生页面看到很多executor的状态是deaddriver日志中搜索Lost executor,如果有打印:Executor heartbeat timed out after xxxms查看executor日志在同一时间点是否有长时间gc,搜索“real=”解决方法:调整executor.cores与spark.executor...

场景一:driver日志中有executor丢失情况,或者在原生页面看到很多executor的状态是dead


driver日志中搜索Lost executor,如果有打印:Executor heartbeat timed out after xxxms


查看executor日志在同一时间点是否有长时间gc,搜索“real=”


解决方法:

  • 调整executor.coresspark.executor.memory的比值,一般在14~5
  • 调整executor.memoryOverhead
  • 如果是个别executor出现心跳丢失,还需要确认是否存在数据倾斜

场景二:executor上报心跳出现超时:Futures timed out after ****

     

    

     spark.executor.heartbeatInterval = 10s 调整心跳间隔,默认10s
     spark.executor.heartbeat.maxFailures=60
上报心跳的重试次数,默认60次
   

spark客户端内,相关网络超时参数spark.executor.heartbeatInterval设置为1200s,这些参数均是在客户端设置生效

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。