爬虫挣钱系列:数据整合之--结构化人名的机会
开年第一篇以挣钱话题开篇,祝朋友们19年都能开拓自己的被动收入渠道。本来想写个跟情人节相关的文章,写了又删,又写又删,觉得没啥意义,所以还是写Python技术和爬虫挣钱的文章吧。
看过我过往文章的老朋友知道我的一个写作方向是爬虫挣钱系列,今年会持续输出。文章里说的事例有的是我亲身实践过,比如接爬虫外包项目,比如数据整合做网站流量,挣百度网盟,比如爬虫技术去做增长黑客。有的事例是我基于上述经验而思索的方向,没有亲自实践。
今天这篇是我亲自实践过,每年能带来近10万被动收入的数据整合机会—结构化人名。
什么叫结构化人名:
这个世界上有很多名人,红人,企业高管,各行业,各垂直领域,有很多很多。只要有一点名气就会有人在搜索引擎上输入你的名字,检索你的信息。每天这些搜索流量是高得可怕。
但是这些流量大头都被百度百科截获了,比如娱乐,体育,企业高管这些名人。
上图是一些名人的百度指数,都是几千-几万的搜索量。
这些人都在百度百科里有词条了,那我们还有机会吗?
有,其实还有很多很多小名人,他们是没有百度百科的,用户在百度上搜索这些人名,只能在很多张网页中看到他们的只言片语,他们的信息都散落在各个网页里,需要使用技术手段把这些人物结构化出来,把他们的发言,简介等个人相关信息结构化出来做成一张张网页。
哪些人物还有这种结构化机会?
大公司的基中层管理者,网络小V(相对于大V来说),小公司的高级管理者,垂直领域的知名者。举几个例子:
吴翰清,你知道是谁吗?
他是阿里云首席科学家,人称道哥,他是没有百度百科的。
看看他的百度指数:
每天1000多人搜索。
再比如曹政,网络名caoz,知名网络大V,他也是没有百度百科的。他没有百度指数,但是从我的百度流量统计数据看,每天也有上百人搜索他。
上图是我的百度统计的搜索词流量的部分截图,你可以看到还有好些人名,他们都是各个领域的小有名气者。每天都有人在百度上搜索他们的名字。
PS:曹政的公众号:caoz ,的文章干货满满,很能开拓运营视野和知识边界。
结构化这些人名之后干什么?
做成网站,做成一个页面简单的人物介绍网站,一个人物一张网页,网页里是这个人物的个人介绍相关内容(这些是靠技术结构化出来的)。以便于被百度搜录,让网站有搜索流量进入,每天挣百度网盟费。
这是在做垃圾网站吗?
No. 用户搜索这些人名是想了解他们的信息,而这些信息之前都是散落在不同地方的,用户在搜索引擎里要一张张网页点击寻找,查阅是很繁琐的,你把这些信息聚合在一起一次性展示给用户,是节约用户时间,搜索引擎也是很欢迎这样做的。
涉及到的知识?
爬虫技术,数据结构化,自然语言处理,Web知识,简单网站运营技巧。
这是考验你各方面抓取能力的,你需要写一个不错的爬虫程序去大量抓取网页;
你需要运用各种手段(正则,bs,xpath等)去抽取千奇百怪的网页格式数据;
还需要一点自然语言处理技术来提高结构化的准确度和效率。
无论是自己搭建简易网站还是使用wp等博客系统,都需要对Web知识和网站运营有一点了解。
如何抓取?
抓取网页需要入口,需要准备一些关键字,比如:嘉宾介绍、高管介绍,作者简介、公司董事等等关键词借助百度,google,微信,微博等搜索渠道,过滤出可能的网页,然后对这些网页实施抓取和结构化。结构化是超级繁琐的事情。
要结构化多大量的人名?
你需要大量结构化至少数十万条人名才能每天有过万的流量,这个没办法靠人工,一个一个去网页上找然后整理编辑,因为这些人名的每天搜索量很小,靠人工每天去编辑几十条,要到猴年马月去了。我结构化了大约10万个人名,每天有4万IP左右,IP对应的百度网盟收入是:100:1的关系。
为什么我要说这些?
1.我写的结合爬虫挣钱系列文章是一种思路,需要同时俱备不错的技术能力和流量运营思维。有这个技术的人可能不懂得如何运营,有这个流量视野的人可能技术上不行。
2.筑巢引凤,我领悟到了这里面的流量机会,如果能把人名结构化规模扩大到百万级,每年的网盟收入就会有百万级。
如果你有大量人物资料这方面的合法资源、渠道、点子或技术实力,私聊我,我们一起挣钱钱。
PS:不要问以下两个问题:
1.你的网站是哪个?
2.能不能把代码贡献出来?
我又出点子,又给代码,有这么好的躺挣机会请给我也来一打。
作者:王平
十年专注于python web 开发,网络爬虫。深入理解Python语言,对Python特性深度了解.
- 点赞
- 收藏
- 关注作者
评论(0)