从零开始实施推荐系统的落地部署——15.推荐系统案例(五)离线文章画像计算遇到的问题和解决办法
1. 采用的是Python黑马头条推荐系统项目这个案例,选择它是用python完成。相关视频可以哔哩哔哩上找到。新建文章数据库,存储文章数据、中间计算结果以及文章画像结果
2. 以为资源配置高,想把25个频道循环分频道做文章画像。因为pyspark下把变量传递到sql语句里,使用$是不行的。有2位微信群的大佬fearless和曹的帮忙,提供了2个方法:
(1) word_df = oa.spark.sql("select * from test where channel_id = %d" % i)
(2) word_df = oa.spark.sql("select * from test where channel_id = {id}".format(id = i))
但是发现获得的数据不对。经查看,发现news_article_basic,news_article_content和news_channel的数据不对。只能使用另外一个配置好的数据。
3. 这个配置好的数据有13万篇文章,测试过每个频道取1000篇就无法运行程序。只能选取18频道。运行几次都不成功。查看后发现18频道有1万多篇文章。选取文章只有7000多的7频道。一次运行成功。还是 高估了配置。Cpu占用的资源比较小。在70核心,只使用15核心。但是内存140G基本上全耗尽完。在此再次感谢fearless和曹的热心帮助。
- 点赞
- 收藏
- 关注作者
评论(0)