米兰的小铁匠的博客_云社区-华为云

Lv.2

米兰的小铁匠

更多个人资料

83 成长值

6 关注

2 粉丝

+ 关注私信

个人介绍

这个人很懒，什么都没有留下

感兴趣或擅长的领域

人工智能、大数据、云计算

个人勋章

TA还没获得勋章~

成长雷达

个人资料

个人介绍

这个人很懒，什么都没有留下

感兴趣或擅长的领域

人工智能、大数据、云计算

达成规则

以上满足项可达成此勋章

博客
关注
粉丝
论坛

全部时间

最近一月

全部
暂无专栏分类

数据仓库之维度建模介绍-- 未写完，待更新

数据仓库是一个面向主题的、集成的、非易失的、反应历史变化的数据集合，用于支持管理决策。数据仓库的首要目的是数据集成、将多个分散的、异构的数据源整合到一起，便于后续分析。数据仓库第一个特征是面向主题的，对于零售商而言，主题域可以是顾客、产品、库存、销售、销售商等，对于生产商而言，主题域可以是产品、订单、销售商、材料单、原材料等。不同类型的公司，其主题是不同的。 ...

云数据仓库 GaussDB(DWS)

米兰的小铁匠 2021-01-07 23:51:42

8603

2021-01-07 23:51:42

999+

数据集成之sqoop介绍

用户需要将分散在各个系统的数据统一处理，将源中的数据统一传输到大数据平台。需要将不同的数据汇聚、清洗、转换。此时就需要一款支持hadoop和与关系型数据库之间的数据的导入导出工具，即数据迁移工具。此时sqoop(sql to hadoop)就诞生了,sqoop是一个在结构化数据、半结构化数据、和非结构非数据的高效的数据转换工具，其构建起传统db和hadoop之间的桥梁。主要用于批量数据处理。

分布式 MapReduce

米兰的小铁匠 2020-11-24 12:49:32

8135

2020-11-24 12:49:32

999+

谈谈flink内存管理

Flink是jvm之上的大数据处理引擎，jvm存在java对象存储密度低、full gc时消耗性能，gc存在stw的问题，同时omm时会影响稳定性。同时针对频繁序列化和反序列化问题flink使用堆内堆外内存可以直接在一些场景下操作二进制数据，减少序列化反序列化的消耗。同时基于大数据流式处理的特点，flink定制了自己的一套序列化框架。flink也会基于cpu L1 L2 L3高速缓存的机制以及局

数据湖探索 DLI 分布式

米兰的小铁匠 2020-12-14 09:14:06

20813

2020-12-14 09:14:06

999+

Flink状态与容错介绍

时间、窗口、状态、容错可以称为是flink的四大基石，本文将介绍下flink中的状态和容错。本文会介绍flink状态的类型、状态后端、状态扩缩容、持久化、实现有状态算子以及结合max算子讲内置状态。容错方面介绍基于jm、tm、rm三个组件上的组件级容错。介绍分布式异步快照的实现以及如何做到at least once和exactly once、end to end exactly。

分布式任务调度

米兰的小铁匠 2020-09-30 13:07:32

9187

2020-09-30 13:07:32

999+

浅谈特征工程之降维

本文主要讲下降维算法，有监督算法线性判别LDA,无监督算法PCA,以及非负矩阵分解NMF.

机器学习人工智能

米兰的小铁匠 2020-08-24 19:08:58

7665

2020-08-24 19:08:58

999+

Flink时间与窗口

在flink的世界里，时间和窗口是两个非常重要的性质，这二者是如何运转起来以及如何交互，本文将详细介绍这两个特性。基于时间本文会介绍接入时间、处理时间、事件时间、watermark等概念，基于窗口本文会介绍窗口类型、窗口分配器、窗口触发器、剔除器、迟到数据处理、窗口状态、窗口join、窗口整体执行流程等概念。

大数据 Java

米兰的小铁匠 2020-08-24 15:44:40

9406

2020-08-24 15:44:40

999+

谈谈Flink DataStream流计算中的优化（持续更新）

Flink是一款事件驱动的支持高吞吐、低延迟、高性能的分布式流处理框架，本文主要介绍Stream API模块的流计算，主要从内存、cpu、网络传输三个角度出发谈流作业优化，最后介绍一些大数据处理中常用的数据结构。

数据结构网络

米兰的小铁匠 2020-06-23 13:31:07

12525

2020-06-23 13:31:07

999+

SparkStreaming介绍

spark streaming 是在spark core基础上的一个高吞吐、高容错的无状态的微批处理框架，其是基于批量数据的处理。本文的设定是你对spark运行机制和rdd (the resilient distributed dataset)编程有一定的了解。

MapReduce spark

米兰的小铁匠 2020-06-16 10:46:38

8452

2020-06-16 10:46:38

999+

https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU

快速交付

+ 关注