穆生生的论坛回复_云社区-华为云

Lv.1

穆生生

更多个人资料

36 成长值

0 关注

0 粉丝

+ 关注私信

个人介绍

这个人很懒，什么都没有留下

感兴趣或擅长的领域

暂无数据

个人勋章

TA还没获得勋章~

成长雷达

个人资料

个人介绍

这个人很懒，什么都没有留下

感兴趣或擅长的领域

暂无数据

达成规则

以上满足项可达成此勋章

主题(0) | 回复(57)

（活动已结束）【大数据全栈成长计划】Spark学习篇 · 每周学习笔记征集帖

发布时间 2021/03/09 17:49:53 最后回复 yuhuashi 2021/04/18 00:30:17 版块社区活动

7609 113 0

他的回复:

华为云ID： hw06188332Spark Streaming总结Spark Streaming是什么？Spark Streaming是用于流式数据的处理周期性的采集数据，不是真正的流式数据，是微批次的准实时的Dstrem创建方式多种，文件读取，socket，Kafka等方式Kafka有两种方法，ReceiverAPI，DirectAPI无状态转换、有状态转换，分别有几种算法WindowOperations可以设置窗口的大小和滑动的窗口的间隔来动态的获取当前Streming的允许状态。窗口时长：计算内容的时间范围；滑动步长：隔多久触发一次计算。DStream输出输出操作如下：print（）：在运行流程序的驱动节点上打印DStream中每一批次数据的最开始10个元素。saveAsTextFiles：以text文件形式存储

（活动已结束）【大数据全栈成长计划】Spark学习篇 · 每章随堂测验打卡帖

发布时间 2021/03/09 17:35:42 最后回复 user_beifeng 2021/04/11 22:01:36 版块社区活动

7174 152 0

他的回复:

华为云ID： hw06188332

（活动已结束）【大数据全栈成长计划】Spark学习篇•最终考核打卡帖&微认证

发布时间 2021/04/07 16:36:54 最后回复雨过之后 2021/04/23 10:39:15 版块社区活动

10757 51 0

他的回复:

华为云ID： hw06188332

（活动已结束）【大数据全栈成长计划】Spark学习篇 · 每章随堂测验打卡帖

发布时间 2021/03/09 17:35:42 最后回复 user_beifeng 2021/04/11 22:01:36 版块社区活动

7174 152 0

他的回复:

华为云ID：hw06188332 第三章测试

（活动已结束）【大数据全栈成长计划】Spark学习篇·问答官排位赛活动帖

发布时间 2021/03/09 18:04:08 最后回复秦玉安 2021/04/10 20:22:06 版块社区活动

5284 122 0

他的回复:

Spark Streaming是微批次的，Storm是实时的流处理。

（活动已结束）【大数据全栈成长计划】Spark学习篇·问答官排位赛活动帖

发布时间 2021/03/09 18:04:08 最后回复秦玉安 2021/04/10 20:22:06 版块社区活动

5284 122 0

他的回复:

请问下，课程中描述SparkSQL是目前推荐的方式，想知道在实际的生产开发中，用的确实是SparkSQL吗？课程当中好像没有关于Structured Streaming的课程。

（活动已结束）【大数据全栈成长计划】Spark学习篇 · 每周学习笔记征集帖

发布时间 2021/03/09 17:49:53 最后回复 yuhuashi 2021/04/18 00:30:17 版块社区活动

7609 113 0

他的回复:

华为云账号： hw06188332工程化代码MVC:Model View Controller大数据程序三层架构：controller（控制层）service（服务层）dao（持久层）controller-->service-->dao结构清晰，结构解耦Spark SQLSpark SQL 是Spark用于结构化数据（structured data)处理的Spark模块特点：易整合、统一的数据访问、兼容Hive、标准的数据连接DataFrame是什么类似于传统数据库中的二维表RDD是有类型的，DataFrame是无类型的DataFrame是懒执行的，但是性能上比RDD高DataSet是分布式数据集合，是有类型的数据集合

（活动已结束）【大数据全栈成长计划】Spark学习篇 · 每章随堂测验打卡帖

发布时间 2021/03/09 17:35:42 最后回复 user_beifeng 2021/04/11 22:01:36 版块社区活动

7174 152 0

他的回复:

华为云ID： hw06188332第二章习题

（活动已结束）【大数据全栈成长计划】Spark学习篇 · 每周学习笔记征集帖

发布时间 2021/03/09 17:49:53 最后回复 yuhuashi 2021/04/18 00:30:17 版块社区活动

7609 113 0

他的回复:

华为云ID： hw06188332Spark读取文件分区方式：Spark读取文件，底层其实使用的就是Hadoop的读取方式分区数量的计算方式：totalSize：文件所有字节数综合（包括回车换行）numSplits：分区数量（如果为0，设置为1）goalSize = totalSize / numSplits --每个分区存放的字节如果有个7个字节的文件，会生成3个分区，因为根据Hadoop分区方式，剩余字节数大于分区字节数大小的10%，就会产生新的分区。7 / 3 = 2 ... 1 (1.1) 一共3个分区Spark读取文件，分区数据是如何分配的：1、数据以行为单位进行读取 Spark读取文件，采用的是Hadoop的方式读取，所以是一行一行读取，和字节数没有关系2、数据读取时以偏移量为单位，偏移量不会被重复读取1@@ => 0122@@ => 3453 => 63、数据分区的偏移量范围的计算0 => [0, 3] 每个分区3个字节，偏移量从3开始，偏移量+31 => [3, 6] 第二个分区开始偏移量为0 + 32 => [6, 7] 最后剩余一个字节最终结果0 =》12 0号分区读取0123偏移量，Hadoop按行读取，所以最终读取012345偏移量1 =》3 偏移量不会被重复读取，所以只是读取了6偏移量2 =》已经没有数据，所以为空

（活动已结束）【大数据全栈成长计划】Spark学习篇·问答官排位赛活动帖

发布时间 2021/03/09 18:04:08 最后回复秦玉安 2021/04/10 20:22:06 版块社区活动

5284 122 0

他的回复:

大家好，Spark设置master的时候 "local" 和 “local[*]”是一样的效果吗？