hadoop学习-stream-Top K记录
【摘要】
求海量数据中最大的K个记录
来源于《hadoop实战》(hadoop in action)(美 拉姆)第4.7章节有关stream的习题。
数据源:apat63_99.txt 专利描述数据集,包含专利号、专利申请年份等等信息。可从美国国家经济研究局获得,网址为http://www.nber.org/patents
...
求海量数据中最大的K个记录
来源于《hadoop实战》(hadoop in action)(美 拉姆)第4.7章节有关stream的习题。
数据源:apat63_99.txt 专利描述数据集,包含专利号、专利申请年份等等信息。可从美国国家经济研究局获得,网址为http://www.nber.org/patents
大约有290万条记录。
这里的脚本用的是python。
apat63_99.txt里面存有专利的各种信息,这里以第9列的专利特定专利声明个数作为排序的key值,将最大的K条完整记录输出。
apat63_99.txt格式:
文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。
原文链接:wenyusuran.blog.csdn.net/article/details/26559703
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)