- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

冰冰B站视频弹幕爬取原理解析

北山啦发表于 2021/04/21 00:10:00 2021/04/21

【摘要】上篇介绍了B站评论的获取方法和数据分析过程，本次将详细讲解B站弹幕爬取原理解析，这里讲解最简单的获取b站弹幕的方法，但也有局限性，仅仅获取了当日的弹幕，但当我再次尝试后，403了，以后再尝试改进把。以==冰冰第一条b站视频为例==为例可以先看看这个爬取冰冰B站千条评论，看看大家说了什么文章目录原理概念步骤实际案例获取视频cid...

上篇介绍了B站评论的获取方法和数据分析过程，本次将详细讲解B站弹幕爬取原理解析，这里讲解最简单的获取b站弹幕的方法，但也有局限性，仅仅获取了当日的弹幕，但当我再次尝试后，403了，以后再尝试改进把。以==冰冰第一条b站视频为例==为例

可以先看看这个爬取冰冰B站千条评论，看看大家说了什么

文章目录

原理

概念

cid : 爬取弹幕需要的id号，可以由BV号通过API接口获得

步骤

以==冰冰第一条b站视频为例==为例

视频链接：https://www.bilibili.com/video/BV1vy4y1i7bS，得到BV号=BV1vy4y1i7bS
BV转cid,浏览器输入：https://api.bilibili.com/x/player/pagelist?bvid=BV1vy4y1i7bS&jsonp=jsonp,得到：cid=273039189。由cid得到当日条数小于等于1000的弹幕
浏览器输入https://api.bilibili.com/x/v1/dm/list.so?oid=273039189
该页面为XML格式，python可通过xmltodict库解析XML格式，在提取出来相应的弹幕文字，就可以进行词频分析，得到词云。

实际案例

获取视频cid

 url = "https://api.bilibili.com/x/player/pagelist?bvid="+str(bvid)+"&jsonp=jsonp" response = requests.get(url) dirt=json.loads(response.text) cid=dirt['data'][0]['cid'] #cid号 已得到 nowDMget(cid) #调用爬取弹幕函数

  
 
  1
  2
  3
  4
  5
  6

爬取当前的弹幕函数

def nowDMget(cid): url = "https://api.bilibili.com/x/v1/dm/list.so?oid="+str(cid) response = requests.get(url) response.encoding = 'utf-8' data = parse(response.text) liat_DM=data['i']['d'] print(len( liat_DM)) for i in range(len( liat_DM)): print(liat_DM[i]['#text'])

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9

词云图

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

冰冰B站视频弹幕爬取原理解析

文章目录

原理

概念

步骤

实际案例

获取视频cid

爬取当前的弹幕函数

词云图

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品