Lv.2
米兰的小铁匠
更多个人资料
83
成长值
7
关注
2
粉丝
+ 关注
私信
个人介绍
这个人很懒,什么都没有留下
感兴趣或擅长的领域
人工智能、大数据、云计算
个人勋章
TA还没获得勋章~
成长雷达
80
3
0
0
0
个人资料
个人介绍
这个人很懒,什么都没有留下
感兴趣或擅长的领域
人工智能、大数据、云计算
达成规则
以上满足
项可达成此勋章
博客
关注
粉丝
论坛
全部时间
全部时间
最近三天
最近一周
最近一月
全部
暂无专栏分类
数据仓库之维度建模介绍-- 未写完,待更新
数据仓库是一个面向主题的、集成的、非易失的、反应历史变化的数据集合,用于支持管理决策。数据仓库的首要目的是数据集成、将多个分散的、异构的数据源整合到一起,便于后续分析。 数据仓库第一个特征是面向主题的,对于零售商而言,主题域可以是顾客、产品、库存、销售、销售商等,对于生产商而言,主题域可以是产品、订单、销售商、材料单、原材料等。不同类型的公司,其主题是不同的。 ...
云数据仓库 GaussDB(DWS)
米兰的小铁匠
2021-01-20 11:28:03
5580
0
0
2021-01-20 11:28:03
999+
0
0
数据集成之sqoop介绍
用户需要将分散在各个系统的数据统一处理,将源中的数据统一传输到大数据平台。 需要将不同的数据汇聚、清洗、转换。此时就需要一款支持hadoop和与关系型数据库之间的数据的导入导出工具,即数据迁移工具。此时sqoop(sql to hadoop)就诞生了,sqoop是一个在结构化数据、半结构化数据、和非结构非数据的高效的数据转换工具,其构建起传统db和hadoop之间的桥梁。主要用于批量数据处理。
分布式
MapReduce
米兰的小铁匠
2020-12-30 10:39:27
5399
0
0
2020-12-30 10:39:27
999+
0
0
谈谈flink内存管理
Flink是jvm之上的大数据处理引擎,jvm存在java对象存储密度低、full gc时消耗性能,gc存在stw的问题,同时omm时会影响稳定性。同时针对频繁序列化和反序列化问题flink使用堆内堆外内存可以直接在一些场景下操作二进制数据,减少序列化反序列化的消耗。同时基于大数据流式处理的特点,flink定制了自己的一套序列化框架。flink也会基于cpu L1 L2 L3高速缓存的机制以及局
数据湖探索 DLI
分布式
米兰的小铁匠
2020-12-14 12:19:42
16921
0
0
2020-12-14 12:19:42
999+
0
0
Flink状态与容错介绍
时间、窗口、状态、容错可以称为是flink的四大基石,本文将介绍下flink中的状态和容错。 本文会介绍flink状态的类型、状态后端、状态扩缩容、持久化、实现有状态算子以及结合max算子讲内置状态。 容错方面介绍基于jm、tm、rm三个组件上的组件级容错。 介绍分布式异步快照的实现以及如何做到at least once和exactly once、end to end exactly。
分布式
任务调度
米兰的小铁匠
2020-09-30 13:14:14
5383
0
0
2020-09-30 13:14:14
999+
0
0
浅谈特征工程之降维
本文主要讲下降维算法,有监督算法线性判别LDA,无监督算法PCA,以及非负矩阵分解NMF.
机器学习
人工智能
米兰的小铁匠
2020-08-25 15:01:57
5385
0
0
2020-08-25 15:01:57
999+
0
0
Flink时间与窗口
在flink的世界里,时间和窗口是两个非常重要的性质,这二者是如何运转起来以及如何交互,本文将详细介绍这两个特性。基于时间本文会介绍接入时间、处理时间、事件时间、watermark等概念,基于窗口本文会介绍窗口类型、窗口分配器、窗口触发器、剔除器、迟到数据处理、窗口状态、窗口join、窗口整体执行流程等概念。
大数据
Java
米兰的小铁匠
2020-08-24 16:10:37
5628
0
2
2020-08-24 16:10:37
999+
0
2
谈谈Flink DataStream流计算中的优化(持续更新)
Flink是一款事件驱动的支持高吞吐、低延迟、高性能的分布式流处理框架,本文主要介绍Stream API模块的流计算,主要从内存、cpu、网络传输三个角度出发谈流作业优化,最后介绍一些大数据处理中常用的数据结构。
数据结构
网络
米兰的小铁匠
2020-06-23 14:01:55
9503
0
0
2020-06-23 14:01:55
999+
0
0
SparkStreaming介绍
spark streaming 是在spark core基础上的一个高吞吐、高容错的无状态的微批处理框架,其是基于批量数据的处理。本文的设定是你对spark运行机制和rdd (the resilient distributed dataset)编程有一定的了解。
MapReduce
spark
米兰的小铁匠
2020-06-16 10:50:15
5519
0
0
2020-06-16 10:50:15
999+
0
0
https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU
+ 关注
私信