Spark_开发者社区_华为云社区-华为云

云社区 Spark

# Spark #

博客 112

高并发下Spark任务driver内存溢出调优

本文对生产环境中的Spark任务读写hdfs数据任务，其高并发、大数据量下的shuffle导致的driver内存溢出，做分析优化。

Yanchel

12438

0

0

Spark

大数据实践解析（下）：Spark的读写流程分析

本文通过简单的例子来解析，大数据实践中的Spark读写流程，内容主要聚焦于Spark中的高效并行读写以及在写过程中如何保证事务性。

hzjturbo

12730

1

5

数据库 Spark 数据存储大数据

在Spark程序中使用深度学习模型来处理非结构化数据

随着大数据和AI业务的不断融合，大数据分析和处理过程中，通过深度学习技术多非结构化数据（如图片、音频、文本）的进行大数据处理的业务场景越来越多。本文会介绍Spark如何与深度学习框架进行协同工作，在大数据的处理过程利用深度学习框架对非结构化数据进行处理。

Athos_sun

13698

3

3

大数据分析 Spark 深度学习机器学习

大数据实践解析（上）：聊一聊spark的文件组织方式

在大数据/数据库领域，数据的存储格式直接影响着系统的读写性能。Spark针对不同的用户/开发者，支持了多种数据文件存储方式。

hzjturbo

11376

4

6

数据库 Spark 数据存储大数据

数据湖探索的Serverless计算

导读：本文主要介绍Serverless计算相关技术与其在华为云数据湖探索服务（后文简称DLI）中的技术落地。Serverless是DLI将计算能力服务化和产品化关键技术，与传统IAAS和PAAS技术不同，DLI运用Serverless技术向客户提供了一种高效易用易扩展的计算框架，使得客户更能聚焦业务，避免牵扯集群运维的细枝末节。本文将从以下几点解读Serverless技术：1. serve...

湖音

10735

0

1

Spark

spark streaming连接kafka引发"partition.assignment.strategy"异常处理

　　服务器运行环境：spark 2.4.4 + scall 2.11.12 + kafka 2.2.2　　由于业务相对简单，kafka只有固定topics，所以一直使用下面脚本执行实时流计算spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.4.4 --py-files /data/service...

AllEmpty

9547

0

0

Spark

《Spark Streaming实时流式大数据处理实战》 ——3.8 实例——Spark RDD操作

本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章，第3.8节，作者是肖力涛　。

华章计算机

4838

0

0

spark 大数据 Spark 大数据

《Spark Streaming实时流式大数据处理实战》 ——3.7 共享变量

本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章，第3.7.1节，作者是肖力涛　。

华章计算机

4988

0

0

spark 大数据 Spark 大数据

《Spark Streaming实时流式大数据处理实战》 ——3.6 RDD持久化（Cachinng/Persistence

本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章，第3.6节，作者是肖力涛　。

华章计算机

4640

0

0

spark 大数据 Spark 大数据

《Spark Streaming实时流式大数据处理实战》 ——3.5 从RDD看集群调度

本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章，第3.5节，作者是肖力涛　。

华章计算机

4717

0

0

spark 大数据 Spark 大数据

总条数：112

到第页

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript