说说数据那些事
今天来说说我做数据这些年的一些感悟和体会,希望能够讲的通俗易懂,化繁为简,给刚入门的小伙伴一些帮助。
数据,是当今世界很重要也很值钱的东西,从哪里来,怎么处理,到哪里去,这是要弄清楚的最基本路线图,本文分着3个部分来分别讲解。
1.从哪里来
数据从哪里来的呢,从业务系统(网站浏览、点赞、评论等交互数据)、app、小程序、邮件系统等等系统产生,存储在关系型或菲关系新数据库中,或者直接落地磁盘,等待被拖走,然后进行下一步处理。
目前数据接入的方式有很多,比如flume监控日志,sqoop离线从数据库导数据到目的端,canal、dbz监控数据库binlog获取最新增删改的实时数据等。
2.怎么处理
在数据领域,处理数据就是将业务数据按照规范进行格式化、统一化,利用现有的技术手段,进行数据加工转换,变成我们想要的东西,然后进行数据分析、数据挖掘等,提供价值信息。
那么现在的java python均可作为数据处理的语言选择,利用处理引擎mr、spark、flink进行批量并行处理,大数据的分而治之思想就是在大量数据处理的时候找到的。
大数据时代,如何从大量的数据中抽取出我们想要的价值数据,就需要分而治之的思想,并行处理,能够大大利用现在廉价的机器资源,并且很重要的一点就是,如何进行数据筛选,如果在处理计算之前,过滤掉大部分数据,就会减少处理时间,提高数据响应度。
3.到哪里去
数据去哪里,就是我们如何利用这些规范化的数据,去分析、挖掘,找到我们想要的数据,想要的数据,如何展示,以图表?文件?excel?方式呈现在需求方呢,这就是数据的去向。数据去向在数据仓库中就是app或者数据集市层,对外以api、表、图的形式对外提供数据服务。
那么为了更好地提供数据服务,我们应该做好数据处理才行,于是就有了数据模型,一个好的模型,可以在同一个业务范围内,提供统一标准化的数据,也规范了统计口径,对下游使用方来说,减少了不必要的口径问题,也提供了好用的数据,这就是数据模型的作用,在数据处理阶段的重要职责。
为了让每天的数据能够稳定、高效、及时地产生,就少不了数据监控系统,但系统稳定,也不能代表不会出现什么问题,有可能是数据的问题,从源头开始就出现错乱数据,那么监控系统少不了,在监控我们自己的数据系统的同时,也要监控到数据源端,保证从源头就没有问题。
————————————————
版权声明:本文为CSDN博主「chenzuoli」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/chenzuoli/article/details/119192817
- 点赞
- 收藏
- 关注作者
评论(0)