- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Python利用B站弹幕制作词云图

北山啦发表于 2022/05/13 21:35:46 2022/05/13

【摘要】 Python利用B站弹幕制作词云图上篇介绍了B站评论的获取方法和数据分析过程，本次将详细讲解B站弹幕爬取原理解析，这里讲解最简单的获取b站弹幕的方法，但也有局限性，仅仅获取了当日的弹幕，但当我再次尝试后，403了，以后再尝试改进吧。可以先看看这个爬取冰冰B站千条评论，看看大家说了什么@[toc] 原理概念cid : 爬取弹幕需要的id号，可以由BV号通过API接口获得步骤以==冰冰第一条...

Python利用B站弹幕制作词云图

上篇介绍了B站评论的获取方法和数据分析过程，本次将详细讲解B站弹幕爬取原理解析，这里讲解最简单的获取b站弹幕的方法，但也有局限性，仅仅获取了当日的弹幕，但当我再次尝试后，403了，以后再尝试改进吧。

可以先看看这个爬取冰冰B站千条评论，看看大家说了什么

@[toc]

原理

概念

cid : 爬取弹幕需要的id号，可以由BV号通过API接口获得

步骤

以==冰冰第一条b站视频为例==为例

视频链接：https://www.bilibili.com/video/BV1vy4y1i7bS，得到BV号=BV1vy4y1i7bS
BV转cid,浏览器输入：https://api.bilibili.com/x/player/pagelist?bvid=BV1vy4y1i7bS&jsonp=jsonp,得到：cid=273039189。由cid得到当日条数小于等于1000的弹幕
浏览器输入https://api.bilibili.com/x/v1/dm/list.so?oid=273039189
该页面为XML格式，python可通过xmltodict库解析XML格式，在提取出来相应的弹幕文字，就可以进行词频分析，得到词云。

实际案例

import requests
import json
from urllib import parse

获取视频cid

    url = "https://api.bilibili.com/x/player/pagelist?bvid="+str(bvid)+"&jsonp=jsonp"
    response = requests.get(url)
    dirt=json.loads(response.text)
    cid=dirt['data'][0]['cid']
    #cid号 已得到
    nowDMget(cid)     #调用爬取弹幕函数

爬取当前的弹幕函数

def nowDMget(cid): 
    url = "https://api.bilibili.com/x/v1/dm/list.so?oid="+str(cid)
    response = requests.get(url)
    response.encoding = 'utf-8'
    data = parse(response.text)  
    liat_DM=data['i']['d']
    print(len( liat_DM))
    for i in range(len( liat_DM)):
        print(liat_DM[i]['#text'])

词云图

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Python利用B站弹幕制作词云图

原理

概念

步骤

实际案例

获取视频cid

爬取当前的弹幕函数

词云图

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Python利用B站弹幕制作词云图

原理

概念

步骤

实际案例

获取视频cid

爬取当前的弹幕函数

词云图

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品