- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

⭐App爬虫之路⭐：海量食谱数据爬取持久化！！！

Code皮皮虾发表于 2021/07/31 15:30:29 2021/07/31

【摘要】 ⭐App爬虫之路⭐：海量食谱数据爬取持久化！！！

前言

App数据抓包分析

打开豆果美食APP

得到对应的JSON数据

对应代码

    url = "https://api.douguo.net/recipe/flatcatalogs"
    data = {
        "client": "4,",
        "_vs": "0",
    }
    count = 0
    response = handle_request(url, data)
    # 转化为json格式
    index_response_dict = json.loads(response.text)

使用在线JSON解析网站进行解析，可以发现我们得到了需要的数据

那我们就进入红烧肉吧😁，发现有三种排序的方式

那我们在fiddler中可以发现三个对应的HTTPS请求

表面上看长得一摸一样，但三个都是POST请求，所以参数不同，根据我的实践，发现三种分类对应三个order字段的不同值

再来看看具体的JSON数据，可见是一一对应的

对应部分代码

caipu_list_url = "https://api.douguo.net/recipe/v2/search/0/20"
caipu_list_response = handle_request(url=caipu_list_url, data=data)
caipu_list_response_dict = json.loads(caipu_list_response.text)

然后的话还需要去请求详情页

请求路径中的数字就是上面得到的ID

对应部分代码

detail_url = "https://api.douguo.net/recipe/v2/detail/" + str(shicai_id)
detail_data = {
    "client": "4",
    "author_id": "0",
    "_vs": "11104",
    "_ext": '{"query":{"kw":' + str(
        shicai) + ',"src":"11104","idx":"3","type":"13","id":' + str(
        shicai_id) + '}}',
    "is_new_user": "1",
}
detail_response = handle_request(detail_url, detail_data)
#解析为json格式
detail_response_dict = json.loads(detail_response.text)

爬取结果

代码测试，只爬取了部分

最后

我是 Code皮皮虾，一个热爱分享知识的皮皮虾爱好者，未来的日子里会不断更新出对大家有益的博文，期待大家的关注！！！

创作不易，如果这篇博文对各位有帮助，希望各位小伙伴可以一键三连哦！，感谢支持，我们下次再见~~~

⭐需要完整代码⭐,麻烦关注公众号：JavaCodes，后台回复：豆果美食，即可领取😁

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

⭐App爬虫之路⭐：海量食谱数据爬取持久化！！！

前言

App数据抓包分析

爬取结果

最后

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

⭐App爬虫之路⭐：海量食谱数据爬取持久化！！！

前言

App数据抓包分析

爬取结果

最后

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品