PageRanke算法

举报
毛利 发表于 2021/07/15 06:24:15 2021/07/15
【摘要】 PageRanke算法的工作原理 PageRank的作用是评价网页的重要性,以此作为搜索结果的排序重要依据之一。 早期的搜索引擎的做法: 一、根本不评价结果重要性: 直接按照某自然顺序(例如时间顺序或编号顺序)返回结果,只能适用于结果集比较少的情况。 二、基于检索词的评价 TF-IDF: 基于检索词评价的思想非常朴素: 检索词匹配度越高的页面重要性越高。 “...

PageRanke算法的工作原理

PageRank的作用是评价网页的重要性,以此作为搜索结果的排序重要依据之一。

早期的搜索引擎的做法:

一、根本不评价结果重要性:

直接按照某自然顺序(例如时间顺序或编号顺序)返回结果,只能适用于结果集比较少的情况。

二、基于检索词的评价 TF-IDF:

基于检索词评价的思想非常朴素: 检索词匹配度越高的页面重要性越高。 “匹配度”就是要定义的具体度量。一个最直接的想法是关键词出现次数越多的页面匹配度越高。但是这样会造成一种情况。 如果我们的的文章比较长,那么比较长的文章比比较短的文章网页关键词出现的次数就会多一些,这样我们基于检索词评价结果的重要性就显得不合理。 所以有人对算法做了 改进使用关键词出现的次数/文章的总词数 ,这种算法看起来很合理但是非常容易受到"Term Spam”的攻击。

通过一个例子介绍 Term Spam:
现在假设Google单纯使用关键词占比评价页面重要性,而我想让我的文章在搜索结果中排名更靠前(最好排第一)。那么我可以这么做:在页面中加入一个隐藏的html元素(例如一个div),例如我知道现在欧洲杯很火热,我就在我博客的隐藏div里加一万个“欧洲杯”,当有用户搜索欧洲杯时,我的博客就能出现在搜索结果较靠前的位置。 这种行为就叫做“Term Spam”。 这种行为甚至可以干扰别的关键词搜索结果。

早期搜索引擎

文章来源: maoli.blog.csdn.net,作者:刘润森!,版权归原作者所有,如需转载,请联系作者。

原文链接:maoli.blog.csdn.net/article/details/91359236

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

举报
请填写举报理由
0/200