Python爬虫实战(二):爬取天涯帖子(只看楼主)

举报
悦来客栈的老板 发表于 2020/12/29 00:52:57 2020/12/29
【摘要】 先上代码 #coding=utf-8import requestsfrom bs4 import Tagfrom bs4 import BeautifulSoup def getHtml(url):    page = requests.get(url)    html =page.text ...

先上代码



  
  1. #coding=utf-8
  2. import requests
  3. from bs4 import Tag
  4. from bs4 import BeautifulSoup
  5. def getHtml(url):
  6.     page = requests.get(url)
  7.     html =page.text
  8.     return html
  9. def getText(html):
  10.     get_text = Tag.get_text
  11.     soup = BeautifulSoup(html, 'html.parser')
  12.     
  13.     author_info = soup.find_all('div', class_='atl-info')
  14.     listauthor  = [x.get_text() for x in author_info]
  15.         
  16.     list_info = soup.find_all('div', class_='bbs-content')
  17.     listtext  = [x.get_text() for x in list_info]
  18.     global i
  19.     if i > 1:
  20.         listtext = [""] + listtext
  21.     
  22.     for x in range(len(listauthor)):
  23.         if "楼主" in listauthor[x]:
  24.             print (listtext[x].strip())
  25.             
  26. if __name__=='__main__':
  27.     for i in range(1,6):
  28.         url  = ("http://bbs.tianya.cn/post-feeling-4286798-%s.shtml" % str(i))
  29.         html = getHtml(url)
  30.         getText(html)



刚学Python不到一个月,代码写的有点乱,以后优化。



文章来源: blog.csdn.net,作者:悦来客栈的老板,版权归原作者所有,如需转载,请联系作者。

原文链接:blog.csdn.net/qq523176585/article/details/77836244

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。