PageRanke算法
PageRanke算法的工作原理
PageRank的作用是评价网页的重要性,以此作为搜索结果的排序重要依据之一。
早期的搜索引擎的做法:
一、根本不评价结果重要性:
直接按照某自然顺序(例如时间顺序或编号顺序)返回结果,只能适用于结果集比较少的情况。
二、基于检索词的评价 TF-IDF:
基于检索词评价的思想非常朴素: 检索词匹配度越高的页面重要性越高。 “匹配度”就是要定义的具体度量。一个最直接的想法是关键词出现次数越多的页面匹配度越高。但是这样会造成一种情况。 如果我们的的文章比较长,那么比较长的文章比比较短的文章网页关键词出现的次数就会多一些,这样我们基于检索词评价结果的重要性就显得不合理。 所以有人对算法做了 改进 , 使用关键词出现的次数/文章的总词数 ,这种算法看起来很合理但是非常容易受到"Term Spam”的攻击。
通过一个例子介绍 Term Spam:
现在假设Google单纯使用关键词占比评价页面重要性,而我想让我的文章在搜索结果中排名更靠前(最好排第一)。那么我可以这么做:在页面中加入一个隐藏的html元素(例如一个div),例如我知道现在欧洲杯很火热,我就在我博客的隐藏div里加一万个“欧洲杯”,当有用户搜索欧洲杯时,我的博客就能出现在搜索结果较靠前的位置。 这种行为就叫做“Term Spam”。 这种行为甚至可以干扰别的关键词搜索结果。
早期搜索引擎
文章来源: maoli.blog.csdn.net,作者:刘润森!,版权归原作者所有,如需转载,请联系作者。
原文链接:maoli.blog.csdn.net/article/details/91359236
- 点赞
- 收藏
- 关注作者
评论(0)