- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

准备数据集用于flink学习

程序员欣宸发表于 2022/04/11 19:37:51 2022/04/11

【摘要】准备一百多万的交易数据，作为flink学习过程中的数据集

欢迎访问我的GitHub

这里分类和汇总了欣宸的全部原创(含配套源码)：https://github.com/zq2599/blog_demos

本篇概览

在学习和开发flink的过程中，经常需要准备数据集用来验证我们的程序，阿里云天池公开数据集中有一份淘宝用户行为数据集，稍作处理后即可用于flink学习；

下载

下载地址：
https://tianchi.aliyun.com/dataset/dataDetail?spm=a2c4e.11153940.0.0.671a1345nJ9dRR&dataId=649
如下图所示，点击红框中的图标下载(名为UserBehavior.csv.zip的文件太大无法在excel打开，因此下载体积小一些的UserBehavior.csv)：
该CSV文件的内容，一共有五列，每列的含义如下表：

列名称	说明
用户ID	整数类型，序列化后的用户ID
商品ID	整数类型，序列化后的商品ID
商品类目ID	整数类型，序列化后的商品所属类目ID
行为类型	字符串，枚举类型，包括(‘pv’, ‘buy’, ‘cart’, ‘fav’)
时间戳	行为发生的时间戳
时间字符串	根据时间戳字段生成的时间字符串

下载完毕后用excel打开，如下图所示：

增加一个字段

为了便于检查数据，接下来在时间戳字段之后新增一个字段，内容是将该行的时间戳转成时间字符串

如下图，在F列的第一行位置输入表达式，将E1的时间戳转成字符串：
上图红框中的表达式内容如下：

=TEXT((E1+8*3600)/86400+70*365+19,"yyyy-mm-dd hh:mm:ss")

！！！有个问题要格外注意！！！：上述表达式中，由于8*3600的作用，得到的时间字符串实际上是东八区时区的时间，在flink sql中，如果用DATE_FORMAT函数计算timestamp也能得到时间字符串，但是这个字符串是格林尼治时区，此时两个时间字符串的值就不同了，例如从F列看2017/11/12和2017/11/13各一条记录，但是DATE_FORMAT函数计算timestamp得到的却是2017/11/12有两条记录，解决这个问题的办法就是将表达式中的8*3600去掉，大家都用格林尼治时区；
表达式生效后，F1的内容就是E1的时间字符串，接下来F列的所有记录都作转换，鼠标放在下图红框位置时，会出现十字架标志，在此标志上双击鼠标：
完成后如下图，F列的时间信息更利于我们开发过程中核对数据：

修复乱序

此时的CSV文件中的数据并不是按时间字段排序的，如下图：
flink在处理上述数据时，由于乱序问题可能会导致计算结果不准，以上图为例，在处理红框2中的数据时，红框3所对应的窗口早就完成计算了，虽然flink的watermark可以容忍一定程度的乱序，但是必须将容忍时间调整为7天才能将红框3的窗口保留下来不触发，这样的watermark调整会导致大量数据无法计算，因此，需要将此CSV的数据按照时间排序再拿来使用；
如下图操作即可完成排序：
完成排序后如下图所示：

至此，一份淘宝用户行为数据集就准备完毕了，接下来的文章将会用此数据进行flink相关的实战；

直接下载准备好的数据

可以在我的Github下载，地址：
https://raw.githubusercontent.com/zq2599/blog_download_files/master/files/UserBehavior.7z

欢迎关注华为云博客：程序员欣宸

学习路上，你不孤单，欣宸原创一路相伴…

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

准备数据集用于flink学习

欢迎访问我的GitHub

本篇概览

下载

增加一个字段

修复乱序

直接下载准备好的数据

欢迎关注华为云博客：程序员欣宸

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

准备数据集用于flink学习

欢迎访问我的GitHub

本篇概览

下载

增加一个字段

修复乱序

直接下载准备好的数据

欢迎关注华为云博客：程序员欣宸

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品