大数据四步业务流程,带你走进大数据工程师的工作生活。

举报
杨卓宏 发表于 2019/01/30 11:21:30 2019/01/30
【摘要】 大数据的业务流程主要包括:数据采集、分布式存储和访问、数据处理、数据分享1、数据采集支持使用传统ETL的方式从关系数据库(Oracle、DB2、SQL Server、MySQL、PostgreSQL)获取关系型数据,保存到分布式存储系统中。支持使用自主研发的适配器、组件从Excel、文本文件解析数据,保存到分布式存储,以及使用适配器采集视频、音频等。支持从Kafka实时接收业务数据,保存到分...

大数据的业务流程主要包括:数据采集、分布式存储和访问、数据处理、数据分享
1、数据采集
支持使用传统ETL的方式从关系数据库(Oracle、DB2、SQL Server、MySQL、PostgreSQL)获取关系型数据,保存到分布式存储系统中。支持使用自主研发的适配器、组件从Excel、文本文件解析数据,保存到分布式存储,以及使用适配器采集视频、音频等。
支持从Kafka实时接收业务数据,保存到分布式存储系统中。
支持通过Flume实时获取日志数据包括从Linux console、RPC(Thrift-RPC)、文本文件、Unix tail、syslog日志系统获取日志数据,并保存到分布式数据库中。
5f6187628535e5dd2b78de357bc6a7efcf1b6223.jpg

2、分布式存储和访问
分布式存储系统用于将数据分散存储在多tai独立的设备上,以避免传统的集中式存储导致系统性能、可靠性瓶颈的产生的问题,以满足大规模存储应用的需要。
支持采用HDFS(hadoop Distribution File System)、Hive、HBase作为分布式存储系统。这些Hadoop核心组件同时也提供了底层的访问接口,用于数据访问。

3、数据处理
可为每个作业分配独立的作业任务处理工作线程和任务执行队列,作业之间互不干扰 。分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理,以达到节约整体计算时间,大大提高计算效率的目的。

4、数据分享
程序员转行大数据需要具备什么能力?
支持以HTTP Restful接口方式、Web Service接口方式,以及JDBC/ODBC等方式分享数据。可采用批量输出、实时输出和高并发输出的形式,不同的输出形式可以使用不同的大数据组件来完成。

很多小伙伴,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的,欢迎小伙伴775进入大数据908学习裙246,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家解惑答疑,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。





【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。