- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Fiddler抓取视频数据

冬晨夕阳发表于 2022/03/29 23:25:21 2022/03/29

1.5k+ 0 0

【摘要】本文仅供参考学习,禁止用于任何形式的商业用途，违者自行承担责任。准备工作：（1）、手机（安卓、ios都可以）/安卓模拟器，今天主要以安卓模拟器为主，操作过程一致。（2）、抓包工具：Fidd...

本文仅供参考学习,禁止用于任何形式的商业用途，违者自行承担责任。

准备工作：

（1）、手机（安卓、ios都可以）/安卓模拟器，今天主要以安卓模拟器为主，操作过程一致。

（2）、抓包工具：Fiddel 下载地址：（https://www.telerik.com/download/fiddler ）

（3）、编程工具：pycharm

（4）、安卓模拟器上安装（逍遥安装模拟器）

一、fiddler配置

在tools中的options中，按照图中勾选后点击Actions, 选择Trust Root Certificate。

配置远程链接：

选择允许监控远程链接，端口可以随意设置，只要别重复就行，默认8888

然后：重启fiddler！！！这样配置才能生效。

二、安卓模拟器/手机配置

首先查看本机的IP：在cmd中输入ipconfig，记住这个IP

手机确保和电脑在同一局域网下。

手机配置：配置已连接的WiFi，代理选择手动，然后输入上图ip端口号为8888

模拟器配置：设置中长按已连接wifi，代理选择手动，然后输入上图ip端口号为8888

代理设置好后，在浏览器中输入你设置的ip：端口，例如10.10.16.194：8888，就会打开fiddler的页面。然后点击fiddlerRoot certificate安装证书，要不手机会认为环境不安全。

证书名称随便设，可能还需要设置一个锁屏密码。

接下来就可以在fiddler中抓到手机/模拟器软件的包了。

三、抓包

打开app，然后观察fiddler中所有的包

其中有个包，包类型为json（json就是网页返回的数据，具体百度），主机地址如图，包大小一般不小，这个就是视频包。

点击这个json包，在fidder右侧，点击解码，我们将视频包的json解码

解码后：点击aweme_list,其中每个大括号代表一个视频，每次加载一点出来，等你看完预加载的，再重新加载一些。
Json是一个字典，我们的视频链接在：aweme_list中，每个视频下的video下的play_addr下的url_list中，一共有6个url，是完全一样的视频，可能是为了应付不同环境，但是一般第3或4个链接的视频不容易出问题，复制链接，浏览器中粘贴就能看到视频了。

接下来解决几个问题，

1、视频数量，每个包中只有这么几个视频，那如何抓取更多呢？

这时候需要借助模拟器的模拟鼠标翻页，让模拟器一直翻页，这样就不断会出现json包了。

2、如何json保存在本地使用

一种方法可以手动复制粘贴，但是这样很low。

所以我们使用fidder自带的脚本，在里面添加规则，当视频json包刷出来后自动保存json包。

自定义规则包：

链接：https://pan.baidu.com/s/1wmtUUMChzuSDZFYGSyUhCg

提取码：7z0l

if (oSession.uriContains("https://api-eagle.amemv.com/aweme/v1/feed/")){
           var strBody=oSession.GetResponseBodyAsString();
           var sps = oSession.PathAndQuery.slice(-58,);
           //FiddlerObject.alert(sps)
           var filename = "C:/Users/HEXU/Desktop/数据爬取/爬取资料/raw_data" + "/" + sps + ".json";  
           var curDate = new Date();   
           var sw : System.IO.StreamWriter;  
           if (System.IO.File.Exists(filename)){  
               sw = System.IO.File.AppendText(filename);  
               sw.Write(strBody);  
           }  
           else{  
               sw = System.IO.File.CreateText(filename);  
               sw.Write(strBody);  
           }  
            
           sw.Close();  
           sw.Dispose();  
       }

  
 
  
 
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17
  18
  19

点击规则脚本，然后将自定义规则放在如图所示位置：

这个脚本有两点需要修改的：

（1）第一行的网址：

这个是从视频包的url中摘出来的，某音会时不时更新这个url，所以不能用了也要去更新：

比如现在的已经和昨天不同了，记着修改。

（2）路径，那个是我设置json包保存的地址，自己一定要去修改，并创建文件夹，修改完记着点保存。

打开设置好模拟器和脚本后，等待一会，就可以看到文件夹中保存的包了：

四、爬虫脚本

接下来在pycharm中写脚本获取json包里的视频链接：

导包：

import os,json,requests

伪装头：
headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36’}

逻辑代码：

效果：

源码：

import os,json,requests
#伪装头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'}

videos_list = os.listdir('C:/Users/HEXU/Desktop/数据爬取/爬取资料/raw_data/')  #获取文件夹内所有json包名

count = 1  #计数，用来作为视频名字

for videos in videos_list:  #循环json列表，对每个json包进行操作
    a = open('./爬取资料/raw_data/{}'.format(videos),encoding='utf-8')  #打开json包
    content = json.load(a)['aweme_list'] #取出json包中所有视频

    for video in content:  #循环视频列表，选取每个视频
        video_url = video['video']['play_addr']['url_list'][4] #获取视频url，每个视频有6个url，我选的第5个
        videoMp4 =  requests.request('get',video_url,headers=headers).content #获取视频二进制代码
        with open('./爬取资料/VIDEO/{}.mp4'.format(count),'wb') as f: #以二进制方式写入路径，记住要先创建路径
            f.write(videoMp4)  #写入
            print('视频{}下载完成'.format(count)) #下载提示
        count += 1 #计数+1

  
 
  
 
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17
  18
  19

文章来源: blog.csdn.net，作者：考古学家lx，版权归原作者所有，如需转载，请联系作者。

原文链接：blog.csdn.net/weixin_43582101/article/details/89600007

点赞
收藏
关注作者

作者其他文章

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

开发者空间

了解空间

工作台

开发工具

实战案例

空间活动

空间论坛

开发平台

软件开发生产线 CodeArts

AI平台ModelArts

数据治理中心 DataArts Studio

数字内容生产线 MetaStudio

精选服务

云数据库 GaussDB

云数据库 RDS for MySQL

MapReduce服务 MRS

数据仓库服务 DWS

分布式缓存服务Redis版

分布式消息服务 DMS

华为云实时音视频 SparkRTC

媒体处理 MPC

主机迁移服务 SMS

对象存储迁移服务 OMS

云消息服务 KooMessage

云手机服务 KooPhone

企业搜索服务 KooSearch

云地图服务 KooMap

更多开放能力

开发工具

API生态

CodeArts API

API Explorer

Terraform Explorer

KooCLI

API 中心

SDK 中心

开发服务

Codelabs

DevStar

低代码平台Astro

CodeArts IDE

Huawei Cloud Toolkit

Classroom

开发资源

开源镜像站

开源资源

开发语言

开发实践

入门精选

分发资源

企业应用中心

企业通用专区

教育专区

华为应用专区

政务云专区

硬件云服务商城

医疗健康专区

跳蚤市场

华为云开发者日

直播专区

开发者精品活动

DTSE Tech Talk

加入HCDE

加入HCDG

加入HCSD

加入HCWD

鲁班会

沃土云创计划·企业

沃土云创计划·高校

沃土云创计划·个人

沃土云创计划·开源共创

博客

论坛

专题

开发者榜单

学习路径

在线课程

动手实验

考试认证

培训服务