- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Python爬虫应用实战-如何对爬取的数据进行数据存储？

格图洛书发表于 2021/11/19 01:12:01 2021/11/19

【摘要】文件存储文件储存的形式多种多样，比如说保存成TXT纯文本形式，也可以保存为JSON格式、CSV格式等等。 TXT文本存储将数据保存到TXT文件的操作是非常简单的，而且TXT文本几乎兼容任何平台，但是也是存在缺点的，那就是不利于检索。所以如果对检索数据的要求不高，追求第一的话，可以采用TXT文本存储。基本示例爬取小说网，...

文件存储

文件储存的形式多种多样，比如说保存成TXT纯文本形式，也可以保存为JSON格式、CSV格式等等。

TXT文本存储

将数据保存到TXT文件的操作是非常简单的，而且TXT文本几乎兼容任何平台，但是也是存在缺点的，那就是不利于检索。所以如果对检索数据的要求不高，追求第一的话，可以采用TXT文本存储。

基本示例

爬取小说网，链接如下：

https://www.soxscc.com/BianShenJueSeShaoNv/1001322.html

首先可以使用requests将网页源码获取下来，然后使用pyquery解析库解析，提取其中的小说内容。

具体代码如下所示：


  
   
    
     
    
    
     
      import requests
     
    
   
    
     
    
    
     
      from pyquery import PyQuery as pq
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      url = 'https://w、w.soxscc.com/BianShenJueSeShaoNv/1001322.html'
     
    
   
    
     
    
    
     
      headers = {
     
    
   
    
     
    
    
     
          'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36'
     
    
   
    
     
    
    
     
      }
     
    
   
    
     
    
    
     
      html = requests.get(url, headers=headers).text
     
    
   
    
     
    
    
     
      doc = pq(html)
     
    
   
    
     
    
    
     
      text = doc('#con1001322').text()
     
    
   
    
     
    
    
     
      file = open('都市仙尊.txt', 'w', encoding='utf-8')
     
    
   
    
     
    
    
     
      file.write(text)
     
    
   
    
     
    
    
     
      print('

文章来源: wenyusuran.blog.csdn.net，作者：文宇肃然，版权归原作者所有，如需转载，请联系作者。

原文链接：wenyusuran.blog.csdn.net/article/details/120503468

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Python爬虫应用实战-如何对爬取的数据进行数据存储？

文件存储

TXT文本存储

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Python爬虫应用实战-如何对爬取的数据进行数据存储？

文件存储

TXT文本存储

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品