yd_295881270的博客_云社区-华为云

Lv.3

yd_295881270

更多个人资料

220 成长值

0 关注

0 粉丝

+ 关注私信

个人介绍

这个人很懒，什么都没有留下

感兴趣或擅长的领域

暂无数据

个人勋章

TA还没获得勋章~

成长雷达

220

个人资料

个人介绍

这个人很懒，什么都没有留下

感兴趣或擅长的领域

暂无数据

达成规则

以上满足项可达成此勋章

博客
关注
粉丝
论坛

全部时间

最近一月

全部
暂无专栏分类

大数据之路：阿里巴巴大数据实践——日志采集与数据同步

本资料全面介绍大数据处理技术架构，涵盖数据采集、同步、计算与服务全流程。内容包括Web/App端日志采集方案、数据同步工具DataX与TimeTunnel、离线与实时数仓架构、OneData方法论及元数据管理等核心内容，适用于构建企业级数据平台体系。

大数据数据复制服务 DRS

yd_295881270 2025-07-19 16:32:49

636

2025-07-19 16:32:49

636

Apache Iceberg数据湖高级特性及性能调优

性能调优涵盖索引优化、排序策略与元数据管理。通过布隆过滤器、位图索引等提升查询效率，结合文件内/间排序优化I/O与压缩，辅以Z-Order实现多维数据聚集。同时，合理配置元数据缓存与清单合并，加速查询规划。适用于点查、全表扫描及高并发写入场景，显著提升系统性能与资源利用率。

Apache 应用性能调优

yd_295881270 2025-07-12 17:08:43

929

2025-07-12 17:08:43

929

Apache Iceberg数据湖基础

Apache Iceberg 是新一代数据湖表格式，旨在解决传统数据湖（如 Hive）在事务性、并发控制和元数据管理上的不足。它支持 Spark、Flink、Trino 等多种计算引擎，提供 ACID 事务、模式演化、分区演化等核心特性，具备良好的云存储兼容性和高性能查询能力，适用于大规模结构化数据分析场景。

Apache

yd_295881270 2025-07-06 15:41:49

1739

2025-07-06 15:41:49

999+

Spark SQL架构及高级用法

Spark SQL基于Catalyst优化器与Tungsten引擎，提供高效的数据处理能力。其架构涵盖SQL解析、逻辑计划优化、物理计划生成及分布式执行，支持复杂数据类型、窗口函数与多样化聚合操作，结合自适应查询与代码生成技术，实现高性能大数据分析。

spark SQL

yd_295881270 2025-07-05 17:14:53

1020

2025-07-05 17:14:53

999+

Trino权威指南

Trino（原Presto SQL）是一款开源分布式SQL查询引擎，专为大数据联邦查询设计。它支持秒级查询PB级数据，可无缝对接Hive、MySQL、Kafka等20+异构数据源。其核心特性包括高速查询、弹性扩展和低成本使用，适合交互式分析与BI场景。Trino采用无共享架构，通过列式内存格式和动态代码生成优化性能，并提供丰富的连接器实现计算存储分离，最大化下推优化以提升效率。

SQL 分布式

yd_295881270 2025-06-14 18:54:02

2813

2025-06-14 18:54:02

999+

Spark RDD 及性能调优

RDD（弹性分布式数据集）是Spark的核心抽象，支持容错和并行计算。其架构包括分区、计算函数、依赖关系、分区器及优先位置等关键组件。操作分为转换（Transformations）与行动（Actions），提供丰富的API支持复杂数据处理。执行模型涵盖用户代码到分布式执行的全流程，通过DAG调度优化任务划分与资源分配。内存管理机制动态调整存储与执行内存，提升资源利用率。性能调优涉及资源配置

spark 应用性能调优

yd_295881270 2025-06-14 14:54:39

848

2025-06-14 14:54:39

848

Apache Spark详解

Apache Spark 是一个开源、分布式计算引擎，专为大规模数据处理设计。它以高速、易用和通用为核心目标。通过内存计算、DAG 执行引擎和惰性求值等特性，大幅提升数据处理效率。其核心组件包括 Spark Core、Spark SQL、Spark Streaming、MLlib 和 GraphX，支持批处理、实时流处理、机器学习和图计算。Spark 提供统一编程模型，支持多语言（Scala/Ja

Apache spark

yd_295881270 2025-06-08 17:14:20

1952

2025-06-08 17:14:20

999+

深入浅出Docker

Docker是一种基于容器技术的开源平台，用于自动化应用的部署、扩展和管理。其核心组件包括镜像（Image）、容器（Container）和仓库（Registry）。镜像是静态只读模板，采用分层存储结构；容器是镜像的运行实例，通过Linux Namespace和Cgroups实现隔离与资源限制；仓库用于集中存储和分发镜像。Docker支持数据持久化（Volumes）、多种网络配置（如Bridge、H

Docker

yd_295881270 2025-06-07 16:23:57

1197

2025-06-07 16:23:57

999+

分布式消息中间件设计与实现

本文深入探讨了消息中间件的核心功能实现与高并发、高可用设计。在生产者设计中，涵盖消息构造、序列化、路由策略及可靠性保障（如ACK机制）。消费者部分分析了拉取/推送模式、分区分配与消息确认机制。同时，Broker作为核心组件，负责消息路由、存储和投递，并通过索引技术实现快速检索。高并发设计方面，重点讨论了文件存储（顺序写入、分段存储）、日志结构存储及负载均衡策略（如哈希分区、轮询分区）。为确保高可

Kafka 分布式

yd_295881270 2025-05-25 18:35:04

1005

2025-05-25 18:35:04

999+

分布式消息中间件基础

消息中间件是一种基于异步消息传递的分布式系统通信工具，核心功能包括消息传输、存储、路由与投递，能够实现系统解耦、异步处理和流量削峰。其主要组件包括生产者、消费者、Broker、主题/队列等，支持点对点和发布-订阅两种消息模型。主流中间件如Kafka（高吞吐）、RabbitMQ（灵活路由）、RocketMQ（事务支持）各有特色，适用于不同场景。此外，中间件还涉及多种协议（AMQP、MQTT等）、可靠

Kafka 分布式

yd_295881270 2025-05-24 14:31:05

1086

2025-05-24 14:31:05

999+

总条数：22

100

上滑加载中

https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU

快速交付

+ 关注