- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

哪吒票房逼近40亿，用python爬取哪吒短评分析

bigsai 发表于 2021/02/03 00:53:06 2021/02/03

【摘要】目录前言分析具体步骤登录爬取与存储可视化分析结语前言暑期档电影惨淡，但随着哪吒爆红开拓了新局面。这也是国产动画的首次爆红。在哪吒刚出，笔者以为最多10亿就算不错的了。没想过仅过了几天就破了10亿。接着头条又突破20亿--------11天27亿，势头增长依然很猛！又破了30亿！那笔者就很好奇人们是怎么看待这一步电影的呢？哪吒？...

前言

暑期档电影惨淡，但随着哪吒爆红开拓了新局面。这也是国产动画的首次爆红。在哪吒刚出，笔者以为最多10亿就算不错的了。没想过仅过了几天就破了10亿。接着头条又突破20亿--------11天27亿，势头增长依然很猛！又破了30亿！

那笔者就很好奇人们是怎么看待这一步电影的呢？

哪吒？我想哪吒是陪伴过不少人成长的一部动画片吧，也是记忆中算得上最好看的动画片之一了。里面的哪吒、小猪熊、申公豹、石鸡娘娘令人历历在目。我们或许都被哪吒的敢打敢为、勇敢和天真所感动！

分析

对于这么一部爆红的动画电影。我想简单分析人们对哪吒动画电影的评价状况。那么就选择猫眼票房或者豆瓣的短评爬下来分析了。
step1：打开豆瓣主页哪吒短评的界面。F12打开调试点击页面下一页会发现有ajax数据交互。
step2:分析这个接口，发现无加密。返回的是json套html需要解析处理一下。用网页访问这个接口。但是你会发现一旦你访问页面靠后它就拒绝访问了。提示你要登录再访问。
step3:思路很清晰了。只需要登录—>访问接口爬取存储—>可视化分析即可

具体步骤

import  requests
import urllib.parse
from http import cookiejar

url='https://accounts.douban.com/j/mobile/login/basic'
header={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
'Referer': 'https://accounts.douban.com/passport/login_popup?login_source=anony', 'Origin': 'https://accounts.douban.com',
 'content-Type':'application/x-www-form-urlencoded',
 'x-requested-with':'XMLHttpRequest',
 'accept':'application/json',
 'accept-encoding':'gzip, deflate, br',
 'accept-language':'zh-CN,zh;q=0.9',
 'connection': 'keep-alive'
 ,'Host': 'accounts.douban.com'
 }
data={ 'ck':'', 'name':'', 'password':'', 'remember':'false', 'ticket':''
}
def login(username,password): global  data data['name']=username data['password']=password data=urllib.parse.urlencode(data) print(data) req=requests.post(url,headers=header,data=data,verify=False) cookies = requests.utils.dict_from_cookiejar(req.cookies) print(cookies) return cookies

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17
  18
  19
  20
  21
  22
  23
  24
  25
  26
  27
  28
  29
  30
  31
  32
  33

爬取与存储

通过api的规则拼凑，抓下来的数据。我们主要需要评价星,和评论语句。
使用Beautifulsoup进行dom解析。使用xldr、xldw将数据写入excel文件中。一个页面20条。页面url增加直到出现异常为止停止。

主要代码实现：

def getcomment(cookies): start=0 w = xlwt.Workbook(encoding='ascii') ws = w.add_sheet('sheet1') index=1 while True: try: url = 'https://movie.douban.com/subject/26794435/comments?start='+str(start)+'&limit=20&sort=new_score&status=P&comments_only=1' start+=20 req = requests.get(url,cookies=cookies) res = req.json() res=res['html'] soup = BeautifulSoup(res, 'lxml') node = soup.select('.comment-item') #print(node[0]) for va in node: name = va.a.get('title') star = va.select_one('.comment-info').select('span')[1].get('class')[0][-2] comment = va.select_one('.short').text print(name, star, comment) ws.write(index,0,index) ws.write(index, 1, name) ws.write(index, 2, star) ws.write(index, 3, comment) index+=1 except Exception as  e: print(e) break w.save('nezha.xls')

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17
  18
  19
  20
  21
  22
  23
  24
  25
  26
  27
  28
  29
  30

对于爬取的结过一览

可视化分析

我们要对评分进行统计、词频统计。还有就是生成词云展示。而对应的就是matplotlib、WordCloud库。

评分统计：

对于评分统计，使用数组将上面的1，2，3，4，5，五个分数段读取时候写入，根据数据画出饼状图分析即可。
从上图也可以知道，对于评分，大部分还是分布在5分和4分的，占比分别为41.2%和33.4%.而2分和1分时非常少！这足以说明这部片绝对不是烂片或者争议不是很大。一部片不可能满足所有人。存在不满意的都在三分但依然能够接受。所以从评分分布来看哪吒还是广受支持的！

词频统计：

根据jieba分词。统计前面热词出现的次数。反应观众共鸣点。
这里感谢楼下评论给的建议，有些词语无关性较大，我将它剔除去噪(例如这个，那个，这是等等)。
可以看的出国产、大圣(大圣归来对比).这些热门话题直戳心头！

词云展示：

相比词频，词云无法看到词语的准确数量，但是可以看的到更多词汇、人们的评价。笔者这里通过count()类(map)对分词结果进行词频统计。统计完的词频排序前300个词展示在2个词云上。这些词语的出现频率均大于10.所以还是有所参考价值额。
可以从词云简单分析出大家还是很满意的，充满浓浓封神色彩、动画风格、不屈的争斗、国产的激动!在票房直逼30亿的情况下！我、要去看了。

代码

顺便给出可视化分析部分代码：

import matplotlib.pyplot as plt
import matplotlib
import jieba
import  jieba.analyse
import xlwt
import xlrd
from wordcloud import WordCloud
import numpy as np
from collections import Counter
matplotlib.rcParams['font.sans-serif'] = ['SimHei']
matplotlib.rcParams['axes.unicode_minus'] = False

def anylasescore(comment): score=[0,0,0,0,0,0] count=0 for va in comment: try: score[int(va[2])]+=1 count+=1 except Exception as e: continue print(score) label='1分','2分','3分','4分','5分' color = 'blue', 'orange', 'yellow', 'green', 'red'  # 各类别颜色 size=[0,0,0,0,0] explode=[0,0,0,0,0] for i in range(1,5): size[i]=score[i]*100/count explode[i]=score[i]/count/10 pie = plt.pie(size, colors=color, explode=explode, labels=label, shadow=True, autopct='%1.1f%%') for font in pie[1]: font.set_size(8) for digit in pie[2]: digit.set_size(8) plt.axis('equal') plt.title(u'各个评分占比', fontsize=12) plt.legend(loc=0, bbox_to_anchor=(0.82, 1))  # 图例 # 设置legend的字体大小 leg = plt.gca().get_legend() ltext = leg.get_texts() plt.setp(ltext, fontsize=6) plt.savefig("score.png") # 显示图 plt.show()
def getzhifang(map): x=[] y=[] for k,v in map.most_common(15): x.append(k) y.append(v) Xi = np.array(x) Yi = np.array(y) x = np.arange(0, 15, 1) width = 0.6 plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签 plt.figure(figsize=(8, 6))  ##指定图像比例： 8：6 plt.bar(Xi, Yi, width, color='blue', label='热门词频统计', alpha=0.8,) plt.xlabel("词频") plt.ylabel("次数") plt.show() return
def getciyun_most(map): x = [] y = [] for k, v in map.most_common(300): x.append(k) y.append(v) xi=x[0:150] xi=' '.join(xi) print(xi) backgroud_Image = plt.imread('nezha.jpg')  # 如果需要个性化词云 wc = WordCloud(background_color="white", width=1500, height=1200, #min_font_size=40, mask=backgroud_Image, font_path="simhei.ttf", max_font_size=150,  # 设置字体最大值 random_state=50,  # 设置有多少种随机生成状态，即有多少种配色方案 )  # 字体这里有个坑，一定要设这个参数。否则会显示一堆小方框wc.font_path="simhei.ttf"   # 黑体 # wc.font_path="simhei.ttf" my_wordcloud = wc.generate(xi) plt.imshow(my_wordcloud) my_wordcloud.to_file("img.jpg") xi=' '.join(x[150:300]) my_wordcloud = wc.generate(xi) my_wordcloud.to_file("img2.jpg") plt.axis("off")

def anylaseword(comment): list=['这个','一个','不少','起来','没有','就是','不是','那个','还是','剧情','这样','那样','这种','那种','故事','人物','什么'] list.append("这个") print(list) commnetstr='' c = Counter() low=Counter() index=0 for va in comment: seg_list = jieba.cut(va[3],cut_all=False) index+=1 for x in seg_list: if len(x) > 1 and x != '\r\n': try: c[x]+=1 except: continue commnetstr+=va[3] for (k, v) in c.most_common(): if v<5 or k in list: c.pop(k) continue #print(k,v) print(len(c),c) getzhifang(c) getciyun_most(c) #print(commnetstr)
def anylase(): data = xlrd.open_workbook('nezha.xls')  # 打开xls文件 table = data.sheets()[0]  # 打开第i张表 comment = [] for i in range(1, 500): comment.append(table.row_values(i)) # print(comment) anylasescore(comment) anylaseword(comment)

if __name__ == '__main__': anylase()


  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17
  18
  19
  20
  21
  22
  23
  24
  25
  26
  27
  28
  29
  30
  31
  32
  33
  34
  35
  36
  37
  38
  39
  40
  41
  42
  43
  44
  45
  46
  47
  48
  49
  50
  51
  52
  53
  54
  55
  56
  57
  58
  59
  60
  61
  62
  63
  64
  65
  66
  67
  68
  69
  70
  71
  72
  73
  74
  75
  76
  77
  78
  79
  80
  81
  82
  83
  84
  85
  86
  87
  88
  89
  90
  91
  92
  93
  94
  95
  96
  97
  98
  99
  100
  101
  102
  103
  104
  105
  106
  107
  108
  109
  110
  111
  112
  113
  114
  115
  116
  117
  118
  119
  120
  121
  122
  123
  124
  125
  126
  127
  128
  129
  130

结语

如果自己需要可以到github下载项目完整代码。当然，只需要更改部分即可同理分析其他电影。
项目依然有不够完善地方，如影评，对不同评分的平均不同处理、其他不同角度如评论用户性别、地点等等等等，这里不做延申。
如果对后端、爬虫、数据结构算法等感性趣欢迎关注我的个人公众号交流(回复爬虫即可获得学习资料一份！)：bigsai 持续输出分享！

文章来源: bigsai.blog.csdn.net，作者：Big sai，版权归原作者所有，如需转载，请联系作者。

原文链接：bigsai.blog.csdn.net/article/details/98644495

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入