云社区
Spark
# Spark #
博客
112
高并发下Spark任务driver内存溢出调优
本文对生产环境中的Spark任务读写hdfs数据任务,其高并发、大数据量下的shuffle导致的driver内存溢出,做分析优化。
Yanchel
12438
0
0
Spark
大数据实践解析(下):Spark的读写流程分析
本文通过简单的例子来解析,大数据实践中的Spark读写流程,内容主要聚焦于Spark中的高效并行读写以及在写过程中如何保证事务性。
hzjturbo
12730
1
5
数据库
Spark
数据
存储
大数据
在Spark程序中使用深度学习模型来处理非结构化数据
随着大数据和AI业务的不断融合,大数据分析和处理过程中,通过深度学习技术多非结构化数据(如图片、音频、文本)的进行大数据处理的业务场景越来越多。本文会介绍Spark如何与深度学习框架进行协同工作,在大数据的处理过程利用深度学习框架对非结构化数据进行处理。
Athos_sun
13698
3
3
大数据分析
Spark
深度学习
机器学习
大数据实践解析(上):聊一聊spark的文件组织方式
在大数据/数据库领域,数据的存储格式直接影响着系统的读写性能。Spark针对不同的用户/开发者,支持了多种数据文件存储方式。
hzjturbo
11376
4
6
数据库
Spark
数据
存储
大数据
数据湖探索的Serverless计算
导读:本文主要介绍Serverless计算相关技术与其在华为云数据湖探索服务(后文简称DLI)中的技术落地。Serverless是DLI将计算能力服务化和产品化关键技术,与传统IAAS和PAAS技术不同,DLI运用Serverless技术向客户提供了一种高效易用易扩展的计算框架,使得客户更能聚焦业务,避免牵扯集群运维的细枝末节。本文将从以下几点解读Serverless技术:1. serve...
湖音
10735
0
1
Spark
spark streaming连接kafka引发"partition.assignment.strategy"异常处理
服务器运行环境:spark 2.4.4 + scall 2.11.12 + kafka 2.2.2 由于业务相对简单,kafka只有固定topics,所以一直使用下面脚本执行实时流计算spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.4.4 --py-files /data/service...
AllEmpty
9547
0
0
Spark
《Spark Streaming实时流式大数据处理实战》 ——3.8 实例——Spark RDD操作
本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章,第3.8节,作者是肖力涛 。
华章计算机
4838
0
0
spark
大数据
Spark
大数据
《Spark Streaming实时流式大数据处理实战》 ——3.7 共 享 变 量
本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章,第3.7.1节,作者是肖力涛 。
华章计算机
4988
0
0
spark
大数据
Spark
大数据
《Spark Streaming实时流式大数据处理实战》 ——3.6 RDD持久化(Cachinng/Persistence
本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章,第3.6节,作者是肖力涛 。
华章计算机
4640
0
0
spark
大数据
Spark
大数据
《Spark Streaming实时流式大数据处理实战》 ——3.5 从RDD看集群调度
本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章,第3.5节,作者是肖力涛 。
华章计算机
4717
0
0
spark
大数据
Spark
大数据
总条数:112
到第
页
确定
热门标签
Java
Python
数据结构
数据库
Linux
机器学习
网络
任务调度
MySQL
JavaScript