- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

大数据入门学习指南

Lansonli 发表于 2022/07/10 10:40:35 2022/07/10

【摘要】大数据入门核心技术栏目是为初学者精心打造入门大数据必学知识整理，内容十分丰富，集合将近200篇高质文章带你轻松学习。但是由于文章很多，集合很多不同系列的知识点，在栏目里面难以标注顺序，这次博主花时间整理一份详细的学习指南，对于刚学习大数据的初学者是非常友好的。只要跟着学，想进入大数据做开发是很容易的，前提你得自律加坚持。

大数据入门学习指南

前情提要

大数据入门核心技术栏目是为初学者精心打造入门大数据必学知识整理，内容十分丰富，集合将近200篇高质文章带你轻松学习。

但是由于文章很多，集合很多不同系列的知识点，在栏目里面难以标注顺序，这次博主花时间整理一份详细的学习指南，对于刚学习大数据的初学者是非常友好的。

只要跟着学，想进入大数据做开发是很容易的，前提你得自律加坚持。

为什么选择学习入门大数据开发，不选择JavaWeb开发？

借棋弈做比喻，智商高的不要选择五子琪，要选择围棋，它能长久地吸引你。

不都是在棋盘上一颗黑子一颗白字地下吗?因为围棋更复杂，能够掌握如此复杂的技艺、产生稳定输出的棋手、让我们更佩服。选择学习大数据开发也如此，能让你的职业生涯走得更远，少走弯路。

本文将持续更新优化，精心完善大数据入门文章教程，让想学大数据的你都能学会。

一、大数据基础

二、大数据必学Java基础

1、Java体系结构、特性和优势

2、Java核心机制

3、JAVA环境准备--＞JDK

4、安装notepad++，配置path环境变量

11、变量和常量

15、算术运算符

16、赋值运算符

17、关系运算符和逻辑运算符

18、条件运算符和位运算符

19、运算符总结

20、流程控制的引入和if语句介绍

22、循环结构

27、详述main方法和了解可变参数

28、Arrays工具类和数组的复制操作

29、二维数组

37、代码块讲解

39、面向对象三大特性之一封装(Encapsulation)

40、面向对象三大特性之一继承(Inheritance)

41、面向对象三大特性之一多态(Polymorphism)

42、Final关键词讲解

43、抽象类和抽象方法讲解

44、接口讲解

45、JDK1.8以后的接口新增内容

46、内部类和面向对象项目实战

持续更新中。。。

三、ZooKeeper

1、ZooKeeper基本知识

2、ZooKeeper集群搭建

3、Zookeeper数据模型和节点类型

4、ZooKeeper的shell操作

5、ZooKeeper Java API操作

6、ZooKeeper选举机制

四、大数据环境搭建

1、Hadoop编译

2、分布式环境搭建

五、Hadoop

1、Hadoop介绍

2、Hadoop发展简史和特性优点

8、HDFS的Shell命令行使用

15、Hadoop的联邦机制 Federation

16、MapReduce计算模型介绍

17、MapReduce编程规范及示例编写

18、MapReduce程序运行模式和深入解析

19、MapReduce分区

20、MapReduce的排序和序列化

21、MapReuce的Combineer

22、MapReduce的自定义分组

23、MapReduce的运行机制详解

28、YARN的调度器Scheduler

29、关于YARN常用参数设置

30、Hadoop3.x的介绍

资源包下载地址：大数据Hadoop基础软件包-其它文档类资源-CSDN下载

https://download.csdn.net/download/xiaoweite1/85433829

六、Hive

1、Hive基本概念

2、Hive的三种安装模式和MySQL搭配使用

11、Hive调优

13、手撕这十道HiveSQL题吊打面试官

七、HBase

1、HBase基本简介

2、HBase集群安装操作

3、HBase数据模型

4、HBase的相关操作-客户端命令式

5、HBase的相关操作JavaAPI方式

6、HBase的高可用

7、Hbase的架构

8、Apache Phoenix的基本介绍

9、Apache Phoenix的安装

10、Apache Phoenix的基本入门操作

11、Apache Phoenix的视图操作

12、Apache Phoenix 二级索引

13、HBase读取和存储数据的流程

14、HBase的原理及其相关的工作机制

15、HBase的Bulk Load批量加载操作

16、HBase的协处理器(Coprocessor)

17、HBase全面调优

18、使用HBase的陌陌案例

八、Kafka

1、消息队列和Kafka的基本介绍

2、Kafka特点总结和架构

3、Kafka的集群搭建以及shell启动命令脚本编写

4、kafka的shell命令使用

5、Kafka的java API编写

6、安装Kafka-Eagle

7、Kafka的分片和副本机制

8、Kafka如何保证数据不丢失

9、kafka消息存储及查询机制原理

10、kafka生产者数据分发策略

11、Kafka的消费者负载均衡机制和数据积压问题

12、Kafka配额限速机制

九、Scala

栏目地址：大数据必学语言Scala

十、Spark

6、环境搭建集群模式 Standalone

7、应用架构基本了解

8、环境搭建集群模式 Standalone HA

9、Spark On Yarn两种模式总结

10、环境搭建集群模式 Spark on YARN

11、应用开发基于IDEA集成环境

12、Spark Core的RDD详解

13、Spark Core的RDD创建

14、Spark Core的RDD操作

15、Spark Core的RDD常用算子

16、Spark Core的RDD算子练习

17、Spark Core的RDD持久化

18、Spark Core的RDD Checkpoint

19、Spark Core的共享变量

20、Spark Core外部数据源引入

21、Spark Core案例-SogouQ日志分析

22、内核原理

23、SparkSQL 概述

24、SparkSQL数据抽象

25、SparkSQL的RDD、DF、DS相关操作

26、SparkSQL数据处理分析

27、SparkSQL案例花式查询和WordCount

28、SparkSQL案例三电影评分数据分析

29、SparkSQL案例四开窗函数

30、SparkSQL自定义UDF函数

31、Spark On Hive

32、SparkSQL的External DataSource

33、SparkSQL分布式SQL引擎

34、Spark Streaming概述

35、SparkStreaming数据抽象 DStream

36、SparkStreaming实战案例一 WordCount

37、SparkStreaming实战案例二 UpdateStateByKey

38、SparkStreaming实战案例三状态恢复扩展

39、SparkStreaming实战案例四窗口函数

40、SparkStreaming实战案例五 TopN-transform

41、SparkStreaming实战案例六自定义输出 foreachRDD

42、SparkStreaming的Kafka快速回顾与整合说明

43、SparkStreaming整合Kafka 0.10 开发使用

44、Structured Streaming概述

45、Structured Streaming Sources 输入源

46、Structured Streaming Operations 操作

47、Structured Streaming Sink 输出

48、Structured Streaming 输出终端/位置

49、Structured Streaming 整合 Kafka

50、Structured Streaming 案例一实时数据ETL架构

51、Structured Streaming 物联网设备数据分析

52、Structured Streaming 事件时间窗口分析

53、Structured Streaming Deduplication

54、扩展阅读 SparkSQL底层如何执行

55、Spark的关键技术回顾

十一、Flink

1、乘风破浪的Flink-Flink概述

2、Flink用武之地

3、Flink安装部署 Local本地模式

4、Standalone独立集群模式

5、Standalone-HA高可用集群模式

6、Flink On Yarn模式

11、流批一体API Source

12、流批一体API Transformation

13、流批一体API Sink

14、流批一体API Connectors JDBC

15、流批一体API Connectors Kafka

16、流批一体API Connectors Redis

17、Flink四大基石

18、Flink Window操作

19、案例一基于时间的滚动和滑动窗口

20、案例二基于数量的滚动和滑动窗口

21、案例三会话窗口

22、Time与Watermaker

23、Watermaker案例演示

24、Allowed Lateness案例演示

25、Flink 状态管理

26、State代码示例

27、Flink 容错机制 Checkpoint

28、Flink 容错机制自动重启策略和恢复

29、Flink 容错机制 Savepoint

30、Flink Table API & SQL 介绍

31、Table与SQL案例准备依赖和程序结构

32、Table与SQL案例准备 API

38、Table与SQL 案例五 FlinkSQL整合Hive

39、Table与SQL 总结 Flink-SQL常用算子

40、Flink模拟双十一实时大屏统计

41、Flink实现订单自动好评

42、BroadcastState

43、扩展阅读关于并行度

44、扩展阅读 End-to-End Exactly-Once

45、扩展阅读双流Join

46、扩展阅读异步IO

47、扩展阅读 File Sink

48、扩展阅读 Streaming File Sink

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

大数据入门学习指南

大数据入门学习指南

前情提要

一、大数据基础

二、大数据必学Java基础

三、ZooKeeper

四、大数据环境搭建

五、Hadoop

六、Hive

七、HBase

八、Kafka

九、Scala

十、Spark

十一、Flink

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

​大数据入门学习指南

大数据入门学习指南

前情提要

一、大数据基础

二、大数据必学Java基础

三、ZooKeeper

四、大数据环境搭建

五、Hadoop

六、Hive

七、HBase

八、Kafka

九、Scala

十、Spark

十一、Flink

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

大数据入门学习指南