(2)个人使用小爬虫---------关于一次被论坛封号而搜索的思考
【摘要】 回顾
上次说到关于已经成功得到数据了。
请看第一期链接:个人使用小爬虫-关于一次被论坛封号而搜索的思考
分析
那现在就是如何利用正则表达到获取相应的标签部分了,请看标签的格式
[双十精选11.17] 这是神马电影?你们是不是过分低估了观众的智商啊?[20P]
以开始,结束
那简单的正则表达就应该是
href=”htm_data.+>.+
但是显然,这样的会将所有部分都包...
回顾
上次说到关于已经成功得到数据了。
请看第一期链接:个人使用小爬虫-关于一次被论坛封号而搜索的思考
分析
那现在就是如何利用正则表达到获取相应的标签部分了,请看标签的格式
[双十精选11.17] 这是神马电影?你们是不是过分低估了观众的智商啊?[20P]
以开始,结束
那简单的正则表达就应该是
但是显然,这样的会将所有部分都包含进去了,并且这样的使用的是贪婪模式,没有进行特定字符的锁定的。
观察得到,所有的字符都是
(.{1,50})
为什么要这样写:
第一,这样写将特定的部分总结出来,
htm_data/[这里要锁定数字]
id=\”\”>(.{这里要锁定字符部分})
第二,需要根据出现的字符数时时的去改变范围
比如这里的部分
(.{1,50})
因为出现的最大字符数并不确定,而且不能包含到下一个出现的匹配字符,这样不会影响结果。
OK:数据完整,一个也没有漏掉,这样可以将这些内容写入到数据库,就相当于在本地有了论坛的数据部分。
抱歉,本来说好晚上更新的,没想到和朋友出去吃点饭弄的这么晚
下期更新,如果用本地用户名,密码的方式访问网站。敬请期待。。。
文章来源: brucedone.com,作者:大鱼的鱼塘,版权归原作者所有,如需转载,请联系作者。
原文链接:brucedone.com/archives/329
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)