数据开发十条锦囊
大家好,我是一哥~
数据开发过程中,大家通常都会踩过一些坑,今天给大家分享10条数据开发锦囊,让大家尽量少踩坑,没有关注我的新朋友可以关注下方公众号,加入数据开发群,领取资料。
下面从开发类和业务类两个方面给大家总结几条实用锦囊,建议收藏,如有补充,可以在文末留言~
开发类
Article 6
关联数据之前,先检查维度表,各维度的值是否有异常,比如null,空值,异常值等等。
Article 5
进行聚合操作后,检查聚合后的数据值是否合理,比如sum求和后的值,找一些已有的数据做核对。
Article 4
left join之后的数据是否有重复,关联字段是否存在一对多的情况,是否符合业务预期。
Article 3
查看上下游指标间的关联关系,是否存在统计相加之后的值和前序依赖对应的不上。
Article 2
重刷数据一定要先新建一个任务,特别是任务由于上有修改表结构导致的任务失败,新建任务,写入临时表进行数据核对后再刷新原任务运行后续依赖。
Article 1
修改表、删除表之前一定要先备份,防止“删库跑路”情况出现。
业务类
Article 4
烟囱式开发,同一个维度在整个数据平台中不一致,维度数据要跟主数据关联起来。
Article 3
过度钻研数据处理技术,忽略业务逻辑,有时候优化一条SQL,也许只是业务逻辑的变通。
Article 2
只管开发和运维任务,不总结。形成团队的wiki进行开发和运维问题处理知识总结,会大大提高团队问题处理效率。
Article 1
忽略数仓对业务成功的支持,只关注效率上的提升,“黑猫白猫,只要抓住老鼠就是好猫”,没有被业务认可的数据团队,长久不了。
-----------------------------------------------------
欢迎加入 大数据 |数仓技术交流群 。进群方式:请加微信(微信号:dataclub_bigdata),回复:加群,通过审核会拉你进群。也可加入俱乐部。
(备注:行业-职位-城市)
公众号推送规则变了
点击上方公众号名片,收藏公众号,不错过精彩内容推送!
文章来源: dataclub.blog.csdn.net,作者:数据社,版权归原作者所有,如需转载,请联系作者。
原文链接:dataclub.blog.csdn.net/article/details/126113213
- 点赞
- 收藏
- 关注作者
评论(0)