- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

知乎回答多线程爬虫案例

毛利发表于 2021/07/15 00:45:44 2021/07/15

【摘要】知乎回答多线程爬虫模式单问题爬取模式相似问题爬取模式输出文件名问题题目文件内容问题问题id 回答者昵称回答者空间id 回答者id 回答者内容单问题爬取模式功能主要通过用户提供的问题id，爬取单个问题下的所有回答相似问题爬取模式功能通过用户提供的起始问题id，以及相关内容爬取数量，...

知乎回答多线程爬虫

模式

单问题爬取模式
相似问题爬取模式

输出

文件名 问题题目

文件内容

问题
问题id
回答者昵称
回答者空间id
回答者id
回答者内容

单问题爬取模式

功能主要通过用户提供的问题id，爬取单个问题下的所有回答

相似问题爬取模式

功能通过用户提供的起始问题id，以及相关内容爬取数量，利用知乎的相关问题进行自动检索，并不断递归至用户提供的爬取数量（默认数量为20）。

bug 由于知乎具有一定的反爬，所以在相似问题检索时最大的检索量为400，如果到达500就会触发反爬机制，需要用户填写一个验证码才可以继续爬取。（也许未来有时间的话会把获取验证码的部分代码补全，但具体机器打码的实现还是太难了，所以还得自己手动输入验证码）

优点简单，明了，使用requests库进行爬取，利用递归实现迭代检索，代码量不大。

缺点功能较少，对线程的把握不够好，可能会出现数据少量缺失的情况。

技术栈：

文章来源: maoli.blog.csdn.net，作者：刘润森！，版权归原作者所有，如需转载，请联系作者。

原文链接：maoli.blog.csdn.net/article/details/117299155

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

知乎回答多线程爬虫案例

知乎回答多线程爬虫

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

知乎回答多线程爬虫案例

知乎回答多线程爬虫

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品