小兔子615的博客_云社区-华为云

Lv.2

小兔子615

更多个人资料

113 成长值

0 关注

2 粉丝

+ 关注私信

个人介绍

这个人很懒，什么都没有留下

感兴趣或擅长的领域

暂无数据

个人勋章

TA还没获得勋章~

成长雷达

110

个人资料

个人介绍

这个人很懒，什么都没有留下

感兴趣或擅长的领域

暂无数据

达成规则

以上满足项可达成此勋章

博客
关注
粉丝
论坛

全部时间

最近一月

全部
暂无专栏分类

Spark界面Job进度不更新问题分析

问题现象：Stage ID: 298056，实际已经完成，但是进度条显示仍有47个task正在执行中。内存dump信息：Stage信息：完成的task数为0，执行中的task数为47，总共的task数为50，该stage的状态为ACTIVE，不是完成状态。LiveTasks信息：该Stage的50个task中，有38个活跃task，表明还有38个task处于未完成状态，但从日志中可以知道，该...

EI企业智能 FusionInsight spark

小兔子615 2021-12-31 19:23:54

9691

2021-12-31 19:23:54

999+

fuxi虚拟机格式化磁盘操作指导

每台虚拟机的系统盘磁盘空间很小，务必要把数据盘格式化挂载使用，防止系统盘被写爆。建议分为两个分区/opt和/srv/BigData其中：/opt: 程序安装目录，/srv/BigData数据目录操作步骤：1. 执行fdisk -l查询磁盘列表2. 执行fdisk /dev/vdb进入磁盘3. 依次执行如下命令，创建两个磁盘分区，建议/opt分区150GB，其余给/srv/BigData，命令...

EI企业智能 FusionInsight 虚拟化

小兔子615 2021-12-31 19:06:02

9571

2021-12-31 19:06:02

999+

Hudi 常见问题归档

· mor表upsert，第一次纯新增数据第二次纯更新数据，两次消费速率基本一致。用例设计有问题，数据量过小体现不出差异，正常mor表在跟新时速度快于cow表。· 控制spark streaming每次消费数据量设置参数conf.set("spark.streaming.kafka.maxRatePerPartition",maxRatePerPartition);c...

EI企业智能 FusionInsight spark SQL

小兔子615 2021-12-31 17:13:04

10308

2021-12-31 17:13:04

999+

CDL写入Hudi全流程操作

1. 准备数据源要求与集群在相同网段的数据库已安装，记录节点地址以及用户名密码。本次测试数据库已准备，以Mysql为例。本地解压Navicat Premium 15.rar并启动navicat.exe，先新建数据库连接。若mysql中已存在数据库，则勾选自动打开然后在左侧连接上右键，打开连接，然后可加载到所有数据库以及表。创建一张测试表source1，并写入2行数据。 2. 配置...

EI企业智能 FusionInsight spark

小兔子615 2021-12-31 17:03:11

10968

2021-12-31 17:03:11

999+

【Spark】如何在Spark Scala/Java应用中调用Python脚本

本文将介绍如何在 Spark scala 程序中调用 Python 脚本，Spark java程序调用的过程也大体相同 1.PythonRunner对于运行与 JVM 上的程序（即Scala、Java程序），Spark 提供了 PythonRunner 类。只需要调用PythonRunner 的main方法，就可以在Scala或Java程序中调用Python脚本。在实现上，PythonRun...

EI企业智能 FusionInsight Python Scala spark

小兔子615 2021-10-30 15:46:47

15828

2021-10-30 15:46:47

999+

FI Spark jar包替换指南

1、注意替换Spark jar包为高危操作！替换jar包有误可能导致Spark任务异常，非必要情况请勿随意替换。替换的jar包需要先修改属组为：omm:wheel 。 2、具体步骤 2、1替换服务端jar包使用PuTTY以root用户登录主管理节点，进入“/opt/FusionInsight_SetupTool/preinstall/tools/cluster”目录，执行vi cluste...

EI企业智能 FusionInsight JAR spark

小兔子615 2021-10-30 15:38:13

9972

2021-10-30 15:38:13

999+

【CarbonData】CarbonData误删恢复（防误删功能）

1.1 CarbonData如果执行了CarbonData误删除操作，并且core-site.xml中提前配置有fs.trash.interval值（hdfs回收站文件过期时间），并且未超出回收站文件过期时间，则可以分以下场景进行数据恢复。恢复HDFS回收站的数据，需要先知道hdfs回收站目录，一般情况下为“/user/${用户名}/.Trash”。 1.1.1 使用drop table误删...

EI企业智能 FusionInsight spark SQL

小兔子615 2021-09-29 16:31:17

10039

2021-09-29 16:31:17

999+

【solr】自定义扩展similarity class开发&使用

EI企业智能 FusionInsight Lucene

小兔子615 2021-09-29 15:12:34

9753

2021-09-29 15:12:34

999+

【Hudi内核原理】索引模块

hudi的索引分为三部分：1、索引的数据结构2、索引的写入3、索引的使用1、索引的数据结构hudi的bloomfilter使用的是hadoop的bloomfilter实现，hadoop bloomFilter需要配置每个过滤器（单个文件的过滤器）包含的数据量（hoodie.index.bloom.num_entries，默认60000），因此，当单文件数据量较大时，存在较大的错误率。在此基...

EI企业智能 FusionInsight 数据结构

小兔子615 2021-05-29 18:32:09

11507

2021-05-29 18:32:09

999+

spark读写hudi表流程

Spark dataSourceV1查询hudi表：MOR表读流程：MOR表的读包括3个分支：1）普通MOR表读；2）clustering数据读；3）compaction时读；4）metatable表读；5）hive inputFormat读最终读接口为：\Hudi_Kernel\hudi-common\src\main\java\org\apache\hudi\common\table\l...

EI企业智能 FusionInsight spark

小兔子615 2021-05-29 18:25:26

12759

2021-05-29 18:25:26

999+

总条数：11

100

上滑加载中

https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU

快速交付

+ 关注