大数据开发概论

举报
Byyyi耀 发表于 2024/09/23 18:00:11 2024/09/23
【摘要】 大数据定义大数据(Big Data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,因此需要新处理模式,该处理模式就是大数据。(常规软件工具指的是:Excel,数据库) 大数据概念大数据处理的数据量有多大?下表体现了对于大厂,左侧的数据是需要长期维护的数据量,右侧的数据是每天接收的数据量,接收的数据量又会筛选出一小部分进行处理或存储。大厂的集群通常由好几千台数据组成...

大数据定义

大数据(Big Data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,因此需要新处理模式,该处理模式就是大数据。(常规软件工具指的是:Excel,数据库)

大数据概念

  • 大数据处理的数据量有多大?
    image.png
    下表体现了对于大厂,左侧的数据是需要长期维护的数据量,右侧的数据是每天接收的数据量,接收的数据量又会筛选出一小部分进行处理或存储。大厂的集群通常由好几千台数据组成。

对于核心数据,通常会存储3份。
image.png

  • 目前的大数据应用主要集中在PB和EB级别。

  • 大数据要解决的问题?

    • 海量数据存储
      • 现在有一个2T的文件需要存储,硬盘的总空间是满足的,但是每个磁盘空间不足以单独存储。
      • 解决方式:分布式存储
    • 海量数据运算
      • 追求数据可以被计算,以及计算的速度和效率。
  • 大数据的特点
    image.png

  • 大数据分析的业务步骤

  • 大数据任务
    image.png

  • 大数据岗位需求
    image.png

  • 大数据学习路线

1. Linux系统
主要是在Linux系统上搭建大数据框架。
image.png

2. 编程语言
image.png

很多公司用Java和Python代替Scala,Python、SQL>Java>Scala。
大数据只是一个理念和思维,这种语言用什么描述都可以。

3. 大数据框架

打勾的是目前可用的框架:
image.png
核心框架:Hadoop、Hive、Spark、Flink、Kafka、HBase

4. 离线项目、实时项目

计算机组成原理

软件和硬件概述

硬件
计算机硬件主要由CPU(运算器和控制器)、存储设备、输入输出设备组成。
image.png
大数据从业者的电脑主要考虑的是CPU和内存大小,或者说主板中最好有内存槽
硬盘最好用固态硬盘,而非机械硬盘,固态硬盘最大的好处是使用虚拟机的时候速度很快
网卡,显卡不重要

软件
计算机的软件分为系统软件和应用软件,所谓的图片,图标都是系统软件虚拟出来的结果。
操作系统是安装在裸机上的,是直接运行在"裸机"上的最基本的系统软件。

image.png
将消息发给对方的过程,通过应用软件把数据发给操作系统,操作系统完成了将数据传输给网卡,网卡通过网线将数据传输到对方的电脑中,从硬件里面将数据提取到操作系统,操作系统将数据发给应用软件。

操作系统

image.png
Unix操作系统是所有操作系统的前身,Windows主要是家用和工作用,Linux主要用于服务器(机房),Android、HarmonyOS主要是用于手机。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。