- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

(2)个人使用小爬虫---------关于一次被论坛封号而搜索的思考

~大鱼~ 发表于 2021/05/27 00:50:26 2021/05/27

【摘要】回顾上次说到关于已经成功得到数据了。请看第一期链接：个人使用小爬虫-关于一次被论坛封号而搜索的思考分析那现在就是如何利用正则表达到获取相应的标签部分了，请看标签的格式 [双十精选11.17] 这是神马电影？你们是不是过分低估了观众的智商啊？[20P] 以开始，结束那简单的正则表达就应该是 href=”htm_data.+>.+ 但是显然，这样的会将所有部分都包...

回顾

上次说到关于已经成功得到数据了。
请看第一期链接：个人使用小爬虫-关于一次被论坛封号而搜索的思考

分析

那现在就是如何利用正则表达到获取相应的标签部分了，请看标签的格式

[双十精选11.17] 这是神马电影？你们是不是过分低估了观众的智商啊？[20P]

以开始，结束

那简单的正则表达就应该是

href=”htm_data.+>.+

但是显然，这样的会将所有部分都包含进去了，并且这样的使用的是贪婪模式，没有进行特定字符的锁定的。

观察得到，所有的字符都是

(.{1,50})

为什么要这样写：

第一，这样写将特定的部分总结出来，

htm_data/[这里要锁定数字]

id=\”\”>(.{这里要锁定字符部分})

第二，需要根据出现的字符数时时的去改变范围

比如这里的部分

(.{1,50})

因为出现的最大字符数并不确定，而且不能包含到下一个出现的匹配字符，这样不会影响结果。

OK：数据完整，一个也没有漏掉，这样可以将这些内容写入到数据库，就相当于在本地有了论坛的数据部分。

抱歉，本来说好晚上更新的，没想到和朋友出去吃点饭弄的这么晚

下期更新，如果用本地用户名，密码的方式访问网站。敬请期待。。。

文章来源: brucedone.com，作者：大鱼的鱼塘，版权归原作者所有，如需转载，请联系作者。

原文链接：brucedone.com/archives/329

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

(2)个人使用小爬虫---------关于一次被论坛封号而搜索的思考

回顾

分析

(.{1,50})

(.{1,50})

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

(2)个人使用小爬虫---------关于一次被论坛封号而搜索的思考

回顾

分析

(.{1,50})

(.{1,50})

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品