Lv.2
顾先生啊
更多个人资料
80
成长值
0
关注
1
粉丝
+ 关注
私信
个人介绍
这个人很懒,什么都没有留下
感兴趣或擅长的领域
大数据、云计算
个人勋章
TA还没获得勋章~
成长雷达
80
0
0
0
0
个人资料
个人介绍
这个人很懒,什么都没有留下
感兴趣或擅长的领域
大数据、云计算
达成规则
以上满足
项可达成此勋章
博客
关注
粉丝
论坛
全部时间
全部时间
最近三天
最近一周
最近一月
全部
暂无专栏分类
spark资源类相关参数介绍
JDBCServer资源类参数:JDBCServer动态规划:(生效是以JDBCServer服务端为准)开启动态规划参数:spark.dynamicAllocation.enabled,为true时候开启开启动态规划参数后,spark.executor.instances将不再生效,但是spark.executor.instances参数的值不能大于spark.dynamicAllocati...
spark
顾先生啊
2022-12-30 11:52:35
1513
0
0
2022-12-30 11:52:35
999+
0
0
spark-sql或spark-beeline查询报错:File does not exist
spark-sql或spark-beeline查询报错:File does not exist产生原因是:spark-sql或spark-beeline会缓存查询的元数据,此时当前session未关闭时候,有其他任务修改了表文件,当前session再进行查询类操作,就会出现表文件不存在的报错解决方法:在表前加上refresh table + 表名或者添加spark.sql.relationC...
spark
SQL
顾先生啊
2022-12-30 11:31:53
3072
0
1
2022-12-30 11:31:53
999+
0
1
yarn-client模式下Driver端打印gc.log
操作步骤在客户端配置文件“$SPARK_HOME/conf/spark-defaults.conf”中的参数“spark.driver.extraJavaOptions”的值中添加(注意不要覆盖)“-XX:+PrintGCDetails -XX:-OmitStackTraceInFastThrow -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps”。...
spark
顾先生啊
2022-12-30 11:14:01
1441
0
0
2022-12-30 11:14:01
999+
0
0
spark任务提交使用Python3
操作步骤把Python环境打包上传到hdfs。打包自定义python包:zip –r test_python.zip test_python/上传到hdfs:hadoop fs -put /opt/test_python.zip /test_python提交Spark应用spark-submit --master yarn --archiveshdfs:///test_python/test...
Python
spark
顾先生啊
2022-12-30 11:11:51
1653
0
0
2022-12-30 11:11:51
999+
0
0
spark基本原理介绍以及日志收集
1、Spark on yarn基本介绍1.1 框架流程(以cluster模式为例)client提交spark应用程序给RMRM收到请求之后,会在集群中随机选择一个NM,为该应用程序分配第一个Container,然后在这个Container上启动AMAM启动driver,并初始化SparkContextAM启动时会向RM注册,并向RM申请资源用于ExecutorAM一旦申请到资源也就是Cont...
spark
顾先生啊
2022-12-29 17:10:08
2293
0
0
2022-12-29 17:10:08
999+
0
0
spark任务修改日志级别
场景一、driver端的日志级别 修改客户端下:/opt/hadoopclient/Spark2x/spark/conf/log4j.propertieslog4j.rootCategory=WARN, console =>log4j.rootCategory=INFO, console场景二、executor端的日志级别,默认INFO修改客户端下:/opt/hadoopclient/S...
spark
顾先生啊
2022-12-29 16:35:03
2023
0
0
2022-12-29 16:35:03
999+
0
0
spark任务executor心跳丢失
场景一:driver日志中有executor丢失情况,或者在原生页面看到很多executor的状态是deaddriver日志中搜索Lost executor,如果有打印:Executor heartbeat timed out after xxxms查看executor日志在同一时间点是否有长时间gc,搜索“real=”解决方法:调整executor.cores与spark.executor...
spark
顾先生啊
2022-12-27 17:24:04
2986
0
0
2022-12-27 17:24:04
999+
0
0
SparkStreaming任务因shuffle用时长导致任务整体变慢
问题背景与现象之前SparkStreaming任务一个批次运行时间在5分钟内,现在变成了10分钟左右才完成一个批次,任务整体时间变长。原因分析查看sparkUI的job运行信息,发现有部分task时间都较长,但也有部分task运行很快十几秒就完成了,对比task没发现数据倾斜的现象。查看对应的task日志,查看用时较长的地方发现如下信息。用时较短的task:用时较长的task:发现task用...
顾先生啊
2022-12-27 17:15:48
1385
0
0
2022-12-27 17:15:48
999+
0
0
https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU
+ 关注