知乎回答多线程爬虫案例
【摘要】 知乎回答多线程爬虫
模式
单问题爬取模式
相似问题爬取模式
输出
文件名 问题题目
文件内容
问题
问题id
回答者昵称
回答者空间id
回答者id
回答者内容
单问题爬取模式
功能 主要通过用户提供的问题id,爬取单个问题下的所有回答
相似问题爬取模式
功能 通过用户提供的起始问题id,以及相关内容爬取数量,...
知乎回答多线程爬虫
模式
-
单问题爬取模式
-
相似问题爬取模式
输出
文件名 问题题目
文件内容
- 问题
- 问题id
- 回答者昵称
- 回答者空间id
- 回答者id
- 回答者内容
单问题爬取模式
功能 主要通过用户提供的问题id,爬取单个问题下的所有回答
相似问题爬取模式
功能 通过用户提供的起始问题id,以及相关内容爬取数量,利用知乎的相关问题进行自动检索,并不断递归至用户提供的爬取数量(默认数量为20)。
bug 由于知乎具有一定的反爬,所以在相似问题检索时最大的检索量为400,如果到达500就会触发反爬机制,需要用户填写一个验证码才可以继续爬取。(也许未来有时间的话会把获取验证码的部分代码补全,但具体机器打码的实现还是太难了,所以还得自己手动输入验证码)
优点 简单,明了,使用requests库进行爬取,利用递归实现迭代检索,代码量不大。
缺点 功能较少,对线程的把握不够好,可能会出现数据少量缺失的情况。
技术栈:
文章来源: maoli.blog.csdn.net,作者:刘润森!,版权归原作者所有,如需转载,请联系作者。
原文链接:maoli.blog.csdn.net/article/details/117299155
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)