从零开始实施推荐系统的落地部署——15.推荐系统案例(五)离线文章画像计算遇到的问题和解决办法

举报
wuyicom 发表于 2020/09/15 00:19:20 2020/09/15
【摘要】 1. 采用的是Python黑马头条推荐系统项目这个案例,选择它是用python完成。相关视频可以哔哩哔哩上找到。新建文章数据库,存储文章数据、中间计算结果以及文章画像结果 2. 以为资源配置高,想把25个频道循环分频道做文章画像。因为pyspark下把变量传递到sql语句里,使用$是不行...

1.       采用的是Python黑马头条推荐系统项目这个案例,选择它是用python完成。相关视频可以哔哩哔哩上找到。新建文章数据库,存储文章数据、中间计算结果以及文章画像结果

              blob.png

              blob.png

              blob.png

2.       以为资源配置高,想把25个频道循环分频道做文章画像。因为pyspark下把变量传递到sql语句里,使用$是不行的。有2位微信群的大佬fearless和曹的帮忙,提供了2个方法:

(1)     word_df = oa.spark.sql("select * from test where channel_id = %d" % i)

(2)     word_df = oa.spark.sql("select * from test where channel_id = {id}".format(id = i))

但是发现获得的数据不对。经查看,发现news_article_basicnews_article_contentnews_channel的数据不对。只能使用另外一个配置好的数据。

    blob.png

    blob.png

    blob.png

3.       这个配置好的数据有13万篇文章,测试过每个频道取1000篇就无法运行程序。只能选取18频道。运行几次都不成功。查看后发现18频道有1万多篇文章。选取文章只有7000多的7频道。一次运行成功。还是 高估了配置。Cpu占用的资源比较小。在70核心,只使用15核心。但是内存140G基本上全耗尽完。在此再次感谢fearless和曹的热心帮助。




【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

举报
请填写举报理由
0/200