- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

深入解析：使用Python爬取Bilibili视频

HUAWEIXIAZHI 发表于 2024/11/26 10:18:50 2024/11/26

【摘要】深入解析：使用Python爬取Bilibili视频

前提声明

爬虫应遵守目标网站的robots.txt协议，尊重版权和用户隐私。
本代码仅供学习和研究使用，不得用于商业用途。
请确保在合法合规的前提下使用本代码。
本代码所爬视频为公开可下载的视频

前提声明
引言
环境准备
代码解析
结语
注意事项
附录
总结
完整代码

引言

Bilibili，作为中国领先的年轻人文化社区，拥有海量的视频资源。对于想要下载Bilibili视频的用户来说，手动下载不仅费时费力，而且效率低下。本文将介绍如何使用Python编写一个脚本，自动化地爬取Bilibili上的视频，并将其保存到本地。

环境准备

在开始之前，请确保你已经安装了以下Python库：

requests：用于发送HTTP请求。
json：用于解析JSON数据。
re：用于正则表达式匹配。
os：用于操作系统功能，如文件路径操作。
subprocess：用于执行外部命令，如调用ffmpeg。
sys：用于访问与Python解释器密切相关的变量和函数。

可以通过以下命令安装所需的库：

pip install requests

代码解析

1. 导入必要的库

import requests
import json
import pprint
import re
import os
import subprocess
import sys

2. 获取URL响应体

定义一个函数getResponse，用于发送GET请求并获取响应体。

def getResponse(url):
    headers = {
        'referer': 'https://www.bilibili.com/', 
        'User-Agent': 'Mozilla/5.0 ...'
    }
    response = requests.get(url=url, headers=headers)
    return response

3. 解析响应体

定义函数parseResponse，用于解析视频页面的响应体，并提取视频和音频的URL。

def parseResponse(url):
    response = getResponse(url)
    html_data = re.findall('<script>window.__playinfo__=(.*?)</script>', response.text)[0]
    jsonData = json.loads(html_data)
    videoTitle = re.findall('<title ...', response.text)[0]
    audioUrl = jsonData['data']['dash']['audio'][0]['baseUrl']
    videoUrl = jsonData['data']['dash']['video'][0]['baseUrl']
    videoInfo = {
        'videoTitle': videoTitle,
        'audioUrl': audioUrl,
        'videoUrl': videoUrl,
    }
    return videoInfo

4. 保存视频和音频

定义函数saveMedia，用于将下载的媒体内容保存到本地文件。

def saveMedia(fileName, content, mediaType):
    os.makedirs('D:\\bilibili', exist_ok=True)
    with open(f'D:\\bilibili\\{fileName}.{mediaType}', 'wb') as f:
        f.write(content)

5. 合并音频和视频

定义函数AvMerge，使用ffmpeg合并音频和视频文件。

def AvMerge(Mp3Name, Mp4Name, savePath):
    subprocess.run(['ffmpeg', '-i', Mp4Name, '-i', Mp3Name, '-c:v', 'copy', ...])

6. 主函数

main函数是脚本的入口点，负责调用上述函数完成整个爬取和保存流程。

def main():
    url = input("请输入B站视频url地址:")
    videoInfo = parseResponse(url)
    # ... 省略部分代码 ...
    AvMerge(Mp3Name, Mp4Name, savePath)

结语

通过上述脚本，我们可以实现自动化下载Bilibili视频的功能。这不仅大大提升了下载效率，也让我们对Python网络编程有了更深入的理解。请注意，爬虫的使用应遵守网站的爬虫政策和法律法规，合理使用爬虫技术。
效果展示

注意事项

确保在合法合规的前提下使用爬虫技术。
尊重视频作者的版权，不要用于商业用途。
考虑到Bilibili网站的反爬措施，可能需要更新请求头或使用代理。

附录

ffmpeg下载: FFmpeg官网
Python库文档: Requests, json

总结
在数字化时代，Bilibili作为中国年轻人文化社区的代表，拥有丰富的视频资源。然而，手动下载这些视频不仅耗时而且效率低下。因此，本文介绍了一种使用Python自动化爬取Bilibili视频的方法，旨在提高下载效率并加深对Python网络编程的理解。

首先，我们准备了必要的Python环境，包括requests、json、re、os、subprocess和sys库。这些库分别用于发送HTTP请求、解析JSON数据、正则表达式匹配、操作系统功能、执行外部命令和访问Python解释器变量。

在代码实现部分，我们首先定义了获取URL响应体的函数getResponse，它通过设置合适的请求头来模拟浏览器行为，获取网页内容。接着，parseResponse函数用于解析响应体，提取视频和音频的URL，这是通过正则表达式和JSON解析实现的。此外，saveMedia函数负责将下载的媒体内容保存到本地文件，而AvMerge函数则使用ffmpeg合并音频和视频文件。

主函数main是整个脚本的入口点，它引导用户输入B站视频URL，并调用上述函数完成视频的爬取和保存。这个过程不仅自动化了视频下载，还展示了如何将音频和视频合并为一个文件。

本文强调，在使用爬虫技术时，应遵守网站的爬虫政策和法律法规，尊重视频作者的版权，避免将爬取内容用于商业用途。同时，考虑到Bilibili可能的反爬措施，可能需要更新请求头或使用代理。

总结来说，本文提供的Python脚本为自动化下载Bilibili视频提供了一种有效的方法。这种方法不仅提高了下载效率，还加深了对网络请求、数据处理和文件操作等编程技能的理解。希望读者能够将这些知识应用到更多有趣和有益的项目中去，并在实践中不断提升自己的编程能力。

完整代码

import requests
import json
import pprint
import re
import os
import subprocess
import sys

"""获取url响应体"""
def getResponse(url):
    headers = {
        'referer': 'https://www.bilibili.com/', 
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    return response

"""解析响应体"""
def parseResponse(url):
    response = getResponse(url)
    html_data = re.findall('<script>window.__playinfo__=(.*?)</script>', response.text)[0]
    jsonData = json.loads(html_data)
    videoTitle = re.findall('<title data-vue-meta="true">(.*?)</title>', response.text)[0]
    audioUrl = jsonData['data']['dash']['audio'][0]['baseUrl']
    videoUrl = jsonData['data']['dash']['video'][0]['baseUrl']
    videoInfo = {
        'videoTitle': videoTitle,
        'audioUrl': audioUrl,
        'videoUrl': videoUrl,
    }
    print("获取Response信息成功！")
    return videoInfo

"""保存视频和音频"""
def saveMedia(fileName, content, mediaType):
    os.makedirs('D:\\bilibili', exist_ok=True)
    with open(f'D:\\bilibili\\{fileName}.{mediaType}', mode='wb') as f:
        f.write(content)
    print(f"保存{mediaType}成功！")

def AvMerge(Mp3Name, Mp4Name, savePath):
    print("开始合并音频和视频.........")
    print(f"音频文件: {Mp3Name}")
    print(f"视频文件: {Mp4Name}")
    print(f"合并后文件保存路径: {savePath}")

    with open(os.devnull, 'w') as devnull:
        result = subprocess.run(
            ['ffmpeg', '-i', Mp4Name, '-i', Mp3Name, '-c:v', 'copy', '-c:a', 'aac', '-strict', 'experimental', savePath],
            stdout=devnull,
            stderr=devnull
        )

    print("合并成功！")
    os.remove(Mp3Name)
    os.remove(Mp4Name)

def main():
    url = input("请输入B站视频url地址:")
    videoInfo = parseResponse(url)
    fileName = videoInfo['videoTitle']
    audioContent = getResponse(videoInfo['audioUrl']).content
    saveMedia(fileName, audioContent, 'mp3')
    videoContent = getResponse(videoInfo['videoUrl']).content
    saveMedia(fileName, videoContent, 'mp4')

    Mp3Name = f'D:\\bilibili\\{fileName}.mp3'
    Mp4Name = f'D:\\bilibili\\{fileName}.mp4'
    savePath = f'D:\\bilibili\\merge_{fileName}.mp4'
    AvMerge(Mp3Name, Mp4Name, savePath)

if __name__ == '__main__':
    main()

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

深入解析：使用Python爬取Bilibili视频

1. 导入必要的库

2. 获取URL响应体

3. 解析响应体

4. 保存视频和音频

5. 合并音频和视频

6. 主函数

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

深入解析：使用Python爬取Bilibili视频

1. 导入必要的库

2. 获取URL响应体

3. 解析响应体

4. 保存视频和音频

5. 合并音频和视频

6. 主函数

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品