爬虫挣钱系列:数据整合之--结构化人名的机会

举报
云享专家 发表于 2019/10/17 10:29:20 2019/10/17
【摘要】 如何抓取? 抓取网页需要入口,需要准备一些关键字,比如:嘉宾介绍、高管介绍,作者简介、公司董事等等关键词借助百度,google,微信,微博等搜索渠道,过滤出可能的网页,然后对这些网页实施抓取和结构化。结构化是超级繁琐的事情。如何抓取?

开年第一篇以挣钱话题开篇,祝朋友们19年都能开拓自己的被动收入渠道。本来想写个跟情人节相关的文章,写了又删,又写又删,觉得没啥意义,所以还是写Python技术和爬虫挣钱的文章吧。

 

看过我过往文章的老朋友知道我的一个写作方向是爬虫挣钱系列,今年会持续输出。文章里说的事例有的是我亲身实践过,比如接爬虫外包项目,比如数据整合做网站流量,挣百度网盟,比如爬虫技术去做增长黑客。有的事例是我基于上述经验而思索的方向,没有亲自实践。

 

今天这篇是我亲自实践过,每年能带来近10万被动收入的数据整合机会结构化人名。

1.jpg


什么叫结构化人名:

这个世界上有很多名人,红人,企业高管,各行业,各垂直领域,有很多很多。只要有一点名气就会有人在搜索引擎上输入你的名字,检索你的信息。每天这些搜索流量是高得可怕。

但是这些流量大头都被百度百科截获了,比如娱乐,体育,企业高管这些名人。

2.jpg


上图是一些名人的百度指数,都是几千-几万的搜索量。

 

这些人都在百度百科里有词条了,那我们还有机会吗?

有,其实还有很多很多小名人,他们是没有百度百科的,用户在百度上搜索这些人名,只能在很多张网页中看到他们的只言片语,他们的信息都散落在各个网页里,需要使用技术手段把这些人物结构化出来,把他们的发言,简介等个人相关信息结构化出来做成一张张网页。

 

哪些人物还有这种结构化机会?

大公司的基中层管理者,网络小V(相对于大V来说),小公司的高级管理者,垂直领域的知名者。举几个例子:

吴翰清,你知道是谁吗?

他是阿里云首席科学家,人称道哥,他是没有百度百科的。

看看他的百度指数:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


每天1000多人搜索。

 

再比如曹政,网络名caoz,知名网络大V,他也是没有百度百科的。他没有百度指数,但是从我的百度流量统计数据看,每天也有上百人搜索他。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

 

上图是我的百度统计的搜索词流量的部分截图,你可以看到还有好些人名,他们都是各个领域的小有名气者。每天都有人在百度上搜索他们的名字。

PS:曹政的公众号:caoz ,的文章干货满满,很能开拓运营视野和知识边界。

 

结构化这些人名之后干什么?

做成网站,做成一个页面简单的人物介绍网站,一个人物一张网页,网页里是这个人物的个人介绍相关内容(这些是靠技术结构化出来的)。以便于被百度搜录,让网站有搜索流量进入,每天挣百度网盟费。

 

这是在做垃圾网站吗?

No. 用户搜索这些人名是想了解他们的信息,而这些信息之前都是散落在不同地方的,用户在搜索引擎里要一张张网页点击寻找,查阅是很繁琐的,你把这些信息聚合在一起一次性展示给用户,是节约用户时间,搜索引擎也是很欢迎这样做的。

 

涉及到的知识?

爬虫技术,数据结构化,自然语言处理,Web知识,简单网站运营技巧。

 

这是考验你各方面抓取能力的,你需要写一个不错的爬虫程序去大量抓取网页;

你需要运用各种手段(正则,bsxpath等)去抽取千奇百怪的网页格式数据;

还需要一点自然语言处理技术来提高结构化的准确度和效率。

无论是自己搭建简易网站还是使用wp等博客系统,都需要对Web知识和网站运营有一点了解。

 

如何抓取?

抓取网页需要入口,需要准备一些关键字,比如:嘉宾介绍、高管介绍,作者简介、公司董事等等关键词借助百度,google,微信,微博等搜索渠道,过滤出可能的网页,然后对这些网页实施抓取和结构化。结构化是超级繁琐的事情。

 

要结构化多大量的人名?

你需要大量结构化至少数十万条人名才能每天有过万的流量,这个没办法靠人工,一个一个去网页上找然后整理编辑,因为这些人名的每天搜索量很小,靠人工每天去编辑几十条,要到猴年马月去了。我结构化了大约10万个人名,每天有4IP左右,IP对应的百度网盟收入是:100:1的关系。

 

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


为什么我要说这些?

1.我写的结合爬虫挣钱系列文章是一种思路,需要同时俱备不错的技术能力和流量运营思维。有这个技术的人可能不懂得如何运营,有这个流量视野的人可能技术上不行。


2.筑巢引凤,我领悟到了这里面的流量机会,如果能把人名结构化规模扩大到百万级,每年的网盟收入就会有百万级。

 

如果你有大量人物资料这方面的合法资源、渠道、点子或技术实力,私聊我,我们一起挣钱钱。

 

PS:不要问以下两个问题:

1.你的网站是哪个?

2.能不能把代码贡献出来?

我又出点子,又给代码,有这么好的躺挣机会请给我也来一打。


作者:王平

十年专注于python web 开发,网络爬虫。深入理解Python语言,对Python特性深度了解.


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。