Lv.2
小兔子615
更多个人资料
113
成长值
0
关注
2
粉丝
+ 关注
私信
个人介绍
这个人很懒,什么都没有留下
感兴趣或擅长的领域
暂无数据
个人勋章
TA还没获得勋章~
成长雷达
110
3
0
0
0
个人资料
个人介绍
这个人很懒,什么都没有留下
感兴趣或擅长的领域
暂无数据
达成规则
以上满足
项可达成此勋章
博客
关注
粉丝
论坛
全部时间
全部时间
最近三天
最近一周
最近一月
全部
暂无专栏分类
Spark界面Job进度不更新问题分析
问题现象:Stage ID: 298056,实际已经完成,但是进度条显示仍有47个task正在执行中。内存dump信息:Stage信息:完成的task数为0,执行中的task数为47,总共的task数为50,该stage的状态为ACTIVE,不是完成状态。LiveTasks信息:该Stage的50个task中,有38个活跃task,表明还有38个task处于未完成状态,但从日志中可以知道,该...
EI企业智能
FusionInsight
spark
小兔子615
2021-12-31 19:23:54
7894
0
0
2021-12-31 19:23:54
999+
0
0
fuxi虚拟机格式化磁盘操作指导
每台虚拟机的系统盘磁盘空间很小,务必要把数据盘格式化挂载使用,防止系统盘被写爆。建议分为两个分区/opt和/srv/BigData其中:/opt: 程序安装目录,/srv/BigData数据目录操作步骤:1. 执行fdisk -l查询磁盘列表2. 执行fdisk /dev/vdb进入磁盘3. 依次执行如下命令,创建两个磁盘分区,建议/opt分区150GB,其余给/srv/BigData,命令...
EI企业智能
FusionInsight
虚拟化
小兔子615
2021-12-31 19:06:02
7844
0
0
2021-12-31 19:06:02
999+
0
0
Hudi 常见问题归档
· mor表upsert, 第一次纯新增数据第二次纯更新数据,两次消费速率基本一致。 用例设计有问题,数据量过小体现不出差异,正常mor表在跟新时速度快于cow表。· 控制spark streaming每次消费数据量 设置参数conf.set("spark.streaming.kafka.maxRatePerPartition",maxRatePerPartition);c...
EI企业智能
FusionInsight
spark
SQL
小兔子615
2021-12-31 17:13:04
8321
0
0
2021-12-31 17:13:04
999+
0
0
CDL写入Hudi全流程操作
1. 准备数据源要求与集群在相同网段的数据库已安装,记录节点地址以及用户名密码。本次测试数据库已准备,以Mysql为例。本地解压Navicat Premium 15.rar并启动navicat.exe,先新建数据库连接。若mysql中已存在数据库,则勾选自动打开然后在左侧连接上右键,打开连接,然后可加载到所有数据库以及表。创建一张测试表source1,并写入2行数据。 2. 配置...
EI企业智能
FusionInsight
spark
小兔子615
2021-12-31 17:03:11
9145
0
0
2021-12-31 17:03:11
999+
0
0
【Spark】如何在Spark Scala/Java应用中调用Python脚本
本文将介绍如何在 Spark scala 程序中调用 Python 脚本,Spark java程序调用的过程也大体相同 1.PythonRunner对于运行与 JVM 上的程序(即Scala、Java程序),Spark 提供了 PythonRunner 类。只需要调用PythonRunner 的main方法,就可以在Scala或Java程序中调用Python脚本。在实现上,PythonRun...
EI企业智能
FusionInsight
Python
Scala
spark
小兔子615
2021-10-30 15:46:47
13221
1
0
2021-10-30 15:46:47
999+
1
0
FI Spark jar包替换指南
1、注意替换Spark jar包为高危操作!替换jar包有误可能导致Spark任务异常,非必要情况请勿随意替换。替换的jar包需要先修改属组为:omm:wheel 。 2、具体步骤 2、1替换服务端jar包使用PuTTY以root用户登录主管理节点,进入“/opt/FusionInsight_SetupTool/preinstall/tools/cluster”目录,执行vi cluste...
EI企业智能
FusionInsight
JAR
spark
小兔子615
2021-10-30 15:38:13
8224
0
0
2021-10-30 15:38:13
999+
0
0
【CarbonData】CarbonData误删恢复(防误删功能)
1.1 CarbonData如果执行了CarbonData误删除操作,并且core-site.xml中提前配置有fs.trash.interval值(hdfs回收站文件过期时间),并且未超出回收站文件过期时间,则可以分以下场景进行数据恢复。恢复HDFS回收站的数据,需要先知道hdfs回收站目录,一般情况下为“/user/${用户名}/.Trash”。 1.1.1 使用drop table误删...
EI企业智能
FusionInsight
spark
SQL
小兔子615
2021-09-29 16:31:17
8375
0
0
2021-09-29 16:31:17
999+
0
0
【solr】自定义扩展similarity class开发&使用
客户需求:使用自定义扩展的similarity class,让关键字出现的频率对搜索得分的影响为0,即关键字出现的频率不影响得分。1.编写SolrSimilarity类,并打包SolrSimilarity-1.0-SNAPSHOT.jar2. 将SolrSimilarity-1.0-SNAPSHOT.jar拷贝到每个solr所安装的机器的/opt/huawei/Bigdata/FusionI...
EI企业智能
FusionInsight
Lucene
小兔子615
2021-09-29 15:12:34
7959
0
0
2021-09-29 15:12:34
999+
0
0
【Hudi内核原理】 索引模块
hudi的索引分为三部分:1、索引的数据结构2、索引的写入3、索引的使用1、索引的数据结构hudi的bloomfilter使用的是hadoop的bloomfilter实现,hadoop bloomFilter需要配置每个过滤器(单个文件的过滤器)包含的数据量(hoodie.index.bloom.num_entries, 默认60000),因此,当单文件数据量较大时,存在较大的错误率。在此基...
EI企业智能
FusionInsight
数据结构
小兔子615
2021-05-29 18:32:09
9744
0
0
2021-05-29 18:32:09
999+
0
0
spark读写hudi表流程
Spark dataSourceV1查询hudi表:MOR表读流程:MOR表的读包括3个分支:1)普通MOR表读;2)clustering数据读;3)compaction时读;4)metatable表读;5)hive inputFormat读最终读接口为:\Hudi_Kernel\hudi-common\src\main\java\org\apache\hudi\common\table\l...
EI企业智能
FusionInsight
spark
小兔子615
2021-05-29 18:25:26
10891
0
0
2021-05-29 18:25:26
999+
0
0
总条数:11
10
10
20
50
100
1
2
上滑加载中
https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU
+ 关注