spark_开发者社区_华为云社区-华为云

云社区 spark

# spark #

博客 598

大规模数据处理指南

随着数据量的不断增长，大规模数据处理变得越来越重要。在这个领域，Hadoop和Spark是两个备受关注的技术。本文将介绍如何利用Python编程语言结合Hadoop和Spark来进行大规模数据处理，并比较它们在不同方面的优劣。简介 HadoopHadoop是一个开源的分布式数据处理框架，它基于MapReduce编程模型，可以处理大规模数据集。Hadoop包括HDFS（分布式文件系统）和Ma...

柠檬味拥抱

24

0

0

Hadoop spark

写一个spark的java程序

编写Spark的Java程序Apache Spark是一个快速通用的集群计算系统，提供了丰富的API支持多种编程语言，包括Java。在本篇技术博客中，我们将介绍如何编写一个简单的Spark的Java程序。步骤一：配置开发环境首先，确保您的开发环境中已经安装了Java开发工具和Apache Spark。您可以从Apache Spark官网下载页面获取安装包并进行安装。步骤二：创建Java Ma...

皮牙子抓饭

100

0

0

Java spark

怎么把spark中的时间转换成天数

怎么把Spark中的时间转换成天数在Spark中，处理时间数据时经常需要将时间转换成天数的形式，这在数据分析和处理中非常有用。本文将介绍如何将Spark中的时间转换成天数的方法。1. 创建Spark DataFrame首先，我们需要创建一个包含时间数据的Spark DataFrame。以下是一个示例代码片段，用于创建一个包含时间戳数据的DataFrame：scalaCopy codeimpo...

皮牙子抓饭

87

0

0

spark SQL

查看在运行的spark任务

查看在运行的Spark任务在大数据处理中，Apache Spark是一个流行的分布式计算框架，它提供了丰富的API和功能，用于处理大规模数据集。在Spark应用程序运行时，我们经常需要实时监视和跟踪正在执行的Spark任务，以便及时发现问题并进行调优。本文将介绍如何查看正在运行的Spark任务的方法。通过Spark Web界面查看任务信息Spark提供了一个Web界面，可以方便地查看正在运行...

皮牙子抓饭

67

0

0

spark

spark增加一列

Spark增加一列在Spark中，我们经常需要对DataFrame进行操作，其中一项常见的需求是往DataFrame中增加一列。本篇技术博客将介绍如何在Spark中给DataFrame增加一列的方法。1. 使用withColumn方法在Spark中，可以使用withColumn方法来为DataFrame添加新列。该方法需要两个参数：新列的名称和要添加的列的内容。下面是一个示例代码：scala...

皮牙子抓饭

89

0

0

spark 机器学习

大数据技术导论

1. why?什么学习这门课？原因5G时代，随着PC、手机终端、物联网端万物互联时代的到来，迎来了海量数据时代，即大数据时代。之前在关系型库时代，以行列二维表格形式，用来存储结构化数据，关系型数据库时代即将落下帷幕，或者确切点是即将为云计算时代的大数据库做铺垫。前端时间在中国闹的很厉害的Oracle裁员事件，因为随着云计算时代，云计算从Iass逐渐向PaaS和SaaS发展时，云计算技术体系对...

tea_year

130

0

0

spark 数据库

Spark 集群和 Scala 编程语言的关系

Spark 集群是基于Apache Spark的分布式计算环境，用于处理大规模数据集的计算任务。Apache Spark是一个开源的、快速而通用的集群计算系统，提供了高级的数据处理接口，包括Spark SQL、Spark Streaming、MLlib（机器学习库）和GraphX（图计算库）。Spark的一个主要特点是能够在内存中进行数据处理，从而大大加速计算速度。Scala 编程语言是Sp...

Jerry Wang

133

0

0

Scala spark

小白的沙箱体验之旅（1）——Spark环境搭建及使用实验

分布式计算是大数据计算速度能够有所突破的根本，在大数据应用中，较为常见的分布式计算框架有MapReduce、Spark和Flink。Spark是目前大数据行业中最常用的分布式计算框架之一，Spark不仅支持离线的大数据分析计算，同样支持交互式分析、流式数据计算和机器学习。

周周的奇妙编程

4724

0

0

spark 弹性云服务器 ECS

Spark---DataFrame存储、Spark UDF函数、UDAF函数

四、DataFrame存储+Spark UDF函数1、储存DataFrame1）、将DataFrame存储为parquet文件2）、将DataFrame存储到JDBC数据库3）、将DataFrame存储到Hive表2、UDF：用户自定义函数可以自定义类实现UDFX接口java：SparkConf conf = new SparkConf();conf.setMaster("local")...

前进的蜗牛

203

0

0

spark

Spark---Spark on Hive

1、Spark On Hive的配置1）、在Spark客户端配置Hive On Spark在Spark客户端安装包下spark-2.3.1/conf中创建文件hive-site.xml：配置hive的metastore路径<configuration> <property> <name>hive.metastore.uris</name> <value>t...

前进的蜗牛

403

0

0

Hive spark

总条数：598

到第页

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript