建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
温馨提示

确定
✖
温馨提示

您尚未绑定手机号,请绑定后再进行评论!

前往认证 ✖
温馨提示

确定
✖
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
确定
我再想想
温馨提示

登录超时或用户已下线,请重新登录!!!

确定
取消
✖
提示

您发布的内容检测到敏感词”

如点击继续发布,敏感词将以“*”代替

返回修改
继续发布
✖

作者小头像 Lv.2
更多个人资料
66 成长值
2 关注
7 粉丝
+ 关注 私信

个人介绍

这个人很懒,什么都没有留下

感兴趣或擅长的领域

数据库、云存储、人工智能
个人勋章
TA还没获得勋章~
成长雷达
60
6
0
0
0

个人资料

个人介绍

这个人很懒,什么都没有留下

感兴趣或擅长的领域

数据库、云存储、人工智能

达成规则

以上满足项可达成此勋章

  • 博客
  • 关注
  • 粉丝
  • 论坛
全部时间
全部时间
最近三天
最近一周
最近一月
  • 全部
  • 暂无专栏分类
Spark 开源新特性:Catalyst 优化流程裁剪
Spark 开源新特性:Catalyst 优化流程裁剪 1. 问题背景上图是典型的Spark Catalyst优化器的布局,一条由用户输入的SQL,到真实可调度执行的RDD DAG任务,需要经历以下五个阶段:Parser: 将SQL解析成相应的抽象语法树(AST),spark也称为 Unresolved Logical Plan;Analyzer: 通过查找Metadata的Catalog...
EI企业智能 spark 数据湖探索 DLI 智能数据
作者小头像 hzjturbo 2021-07-22 16:28:11
13066
0
1
2021-07-22 16:28:11
999+
0
1
基于负载的资源智能扩缩容
数据湖探索(Data Lake Insight,简称DLI)是一款Serverless的大数据分析服务,可通过弹性伸缩资源来提高资源的使用率,减少用户数据分析成本。未来考虑基于负载的自动扩缩容来进一步智能化地管理用户的资源,提供更高的性价比服务。基于此背景,本博文简单介绍了微软发表在SIGMOD'16的一篇关于资源动态按需调整的论文,Automated Demand-driven Resou...
EI企业智能 数据湖探索 DLI 智能数据
作者小头像 hzjturbo 2021-05-10 09:08:20
5738
0
0
2021-05-10 09:08:20
999+
0
0
Orca: A Modular Query Optimizer Architecture for Big Data
一个通用,可拓展,多核,高性能大数据优化器GPDB采用了shared-nothing的多处理架构,每个处理器拥有自己的内存,操作系统和磁盘等。主节点(master)管理其他的数据库实例(segment),数据在节点的分布可以是hashed,replicated,singleton等。ORCA基于Cascades优化流程(top-down),并且可以作为其他存储系统的独立优化器模块;提供了一种...
数据湖探索 DLI 智能数据 EI企业智能
作者小头像 hzjturbo 2020-12-27 21:41:36
10159
0
0
2020-12-27 21:41:36
999+
0
0
Spark避坑指南----UnsafeRow对象的持久化
Spark推出Tungsten计划用于提升Spark的性能与资源使用,其中为了消除JVM对象模型和GC代价,提供了UnsafeRow对象类型。它由jvm提供的sun.misc.Unsafe实现,内部存储的是二进制,继承自InternalRow,是SparkSQL中的中间算子的处理和输出数据类型。正是由于UnsafeRow的特殊性,我们发现在某些情况下可能会无法正确序列/持久化该类型,产生数据...
EI企业智能 智能数据 数据湖探索 DLI
作者小头像 hzjturbo 2020-08-18 21:39:53
10753
0
4
2020-08-18 21:39:53
999+
0
4
大数据实践解析(上):聊一聊spark的文件组织方式
在大数据/数据库领域,数据的存储格式直接影响着系统的读写性能。Spark针对不同的用户/开发者,支持了多种数据文件存储方式。
数据库 Spark 数据 存储 大数据
作者小头像 hzjturbo 2020-06-30 11:15:32
14411
4
6
2020-06-30 11:15:32
999+
4
6
大数据实践解析(下):Spark的读写流程分析
本文通过简单的例子来解析,大数据实践中的Spark读写流程,内容主要聚焦于Spark中的高效并行读写以及在写过程中如何保证事务性。
数据库 Spark 数据 存储 大数据
作者小头像 hzjturbo 2020-06-30 11:15:09
16346
1
5
2020-06-30 11:15:09
999+
1
5
https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU
作者小头像
作者小头像
快速交付
+ 关注

确定

确定