《企业级大数据平台构建:架构与实现》——1.3.4 数据计算
1.3.4 数据计算
在数据接入并存储下来之后,就需要考虑如何使用这些数据了。比如对数据进行加工、转换、映射、查询,进行业务处理或者进行数据挖掘,等等。根据业务场景的不同会有不同的计算需求。
1.?离线批处理
大数据具有体量大和价值密度低的特性,这意味着这些数据通常并不能直接拿来使用,在真正使用之前可能需要清洗加工。在数据量非常大但是对时效性要求不高的场景下,可以使用离线批处理的方式来执行。
比如在机器学习场景下,在使用数据之前通常需要做数据清洗、转换映射、归一化等一系列预处理动作;或是在搜索引擎场景下,需要将已获取的数据转换成索引文件。这些场景都很适合使用分布式离线批处理来执行。
2.?实时计算
在一些对时效性要求很高的场景中,通常在数据接入的同时就需要实时地对数据进行业务逻辑处理并输出结果。比如在一些预警类型的应用中,需要根据实时接收的数据即刻做出预警判断;或是在一些风险控制类型的应用中需要实时地计算出用户的风险评级。这些场景都需要非常高的实时响应性,传统的离线批处理手段此时就显得有些力不从心了。也正因为如此,催生出了很多分布式实时计算的解决方案。
3.?机器学习
从某种程度来说,大数据技术使得机器学习这门从20世纪50年代便已存在的“古老学科”焕发了青春。因为通过大数据技术,机器学习的算法可以直接使用全量数据进行模型的训练,而不是使用局部的样本数据,同时还能利用分布式技术进行高效的模型训练并得到结果。机器学习对我们的应用十分重要,因为我们的预测、预警和分析类应用底层都需要在机器学习的众多算法上实现。
4.?多维分析
得益于IT技术的迅猛发展,ERP、CRM这类IT系统在电力、金融等多个行业均得以实施。这些系统在提升企业运营效率的同时也记录了大量原始的明细数据。利用这些原始数据可以进行一些分析或产出报表来辅助企业决策。比如我们销售的商品最近几个月是增长了还是降低了?喜欢我们产品的消费群体是什么年龄段的?这类功能就可以使用多维分析来实现。
5.?全文搜索
如何在茫茫的数据海洋之中迅速查找到自己想要的信息呢?这就是搜索引擎大显身手的时候了。不同于传统数据库的模糊匹配查询,全文搜索是基于自然语义进行查询条件输入的。通过搜索引擎提供的全文搜索能力,我们可以实现一步直达数据。这项能力在企业级知识库、智库这类应用场景中非常有用,并且数据量越大越能体现出它的优势。
不仅如此,由于全文搜索能够快速检索的特性使得它能够在非常快的速度下选取和查询条件相关的数据集,所以其他的分析系统可以借用搜索的特性进行结合。基于搜索引擎的多维分析设计就基于这样的思路诞生的,通过全文搜索筛选数据然后使用计算引擎执行计算。
由此我们可以得知大数据平台需要能够提供多个领域、多种途径的数据处理和计算手段。
- 点赞
- 收藏
- 关注作者
评论(0)