《企业级大数据平台构建:架构与实现》——1.3.2 数据接入
【摘要】 本书摘自《企业级大数据平台构建:架构与实现》——书中第1章,1.3.2节,作者是朱凯。
1.3.2 数据接入
现在我们知道在大数据应用领域,数据是核心资源,这些数据是企业的宝贵财富,我们对业务模型的建立、分析和挖掘都需要建立在这些原始数据之上,而这些数据通常具有以下几个特点;
1)来源多:这些原始数据可能来源于各种地方,比如来自本地文件或是关系型数据库中的表,或是通过网络爬虫获取到的HTML页面,或是通过通信协议接受到的机器报文,等等。
2)类型杂:这些原始数据拥有不同数据类型,比如文件属于非结构化的数据,关系型数据库中表属于结构化数据,而HTML页面属于半结构化数据。
3)体量大:这些原始数据可能非常多,因为现如今企业内部存储的数据量正在急剧增长。特别是一些互联网企业,其每天的数据增长可能就达到TB级。
由此我们可以得知大数据平台需要能够对接各种来源和各种类型的海量数据。
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)