(2)个人使用小爬虫---------关于一次被论坛封号而搜索的思考

举报
~大鱼~ 发表于 2021/05/27 00:50:26 2021/05/27
【摘要】 回顾 上次说到关于已经成功得到数据了。 请看第一期链接:个人使用小爬虫-关于一次被论坛封号而搜索的思考 分析 那现在就是如何利用正则表达到获取相应的标签部分了,请看标签的格式 [双十精选11.17] 这是神马电影?你们是不是过分低估了观众的智商啊?[20P] 以开始,结束 那简单的正则表达就应该是 href=”htm_data.+>.+ 但是显然,这样的会将所有部分都包...

回顾

上次说到关于已经成功得到数据了。
请看第一期链接:个人使用小爬虫-关于一次被论坛封号而搜索的思考

分析

那现在就是如何利用正则表达到获取相应的标签部分了,请看标签的格式

[双十精选11.17] 这是神马电影?你们是不是过分低估了观众的智商啊?[20P]

开始,结束

那简单的正则表达就应该是

href=”htm_data.+>.+

但是显然,这样的会将所有部分都包含进去了,并且这样的使用的是贪婪模式,没有进行特定字符的锁定的。

《(2)个人使用小爬虫---------关于一次被论坛封号而搜索的思考》

观察得到,所有的字符都是

(.{1,50})

为什么要这样写:

第一,这样写将特定的部分总结出来,

htm_data/[这里要锁定数字]

id=\”\”>(.{这里要锁定字符部分})

第二,需要根据出现的字符数时时的去改变范围

比如这里的部分

(.{1,50})

因为出现的最大字符数并不确定,而且不能包含到下一个出现的匹配字符,这样不会影响结果。

《(2)个人使用小爬虫---------关于一次被论坛封号而搜索的思考》

OK:数据完整,一个也没有漏掉,这样可以将这些内容写入到数据库,就相当于在本地有了论坛的数据部分。

抱歉,本来说好晚上更新的,没想到和朋友出去吃点饭弄的这么晚

下期更新,如果用本地用户名,密码的方式访问网站。敬请期待。。。

文章来源: brucedone.com,作者:大鱼的鱼塘,版权归原作者所有,如需转载,请联系作者。

原文链接:brucedone.com/archives/329

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。