- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

PageRanke算法

毛利发表于 2021/07/15 06:24:15 2021/07/15

【摘要】 PageRanke算法的工作原理 PageRank的作用是评价网页的重要性，以此作为搜索结果的排序重要依据之一。早期的搜索引擎的做法：一、根本不评价结果重要性: 直接按照某自然顺序（例如时间顺序或编号顺序）返回结果，只能适用于结果集比较少的情况。二、基于检索词的评价 TF-IDF：基于检索词评价的思想非常朴素：检索词匹配度越高的页面重要性越高。 “...

PageRanke算法的工作原理

PageRank的作用是评价网页的重要性，以此作为搜索结果的排序重要依据之一。

早期的搜索引擎的做法：

一、根本不评价结果重要性:

直接按照某自然顺序（例如时间顺序或编号顺序）返回结果，只能适用于结果集比较少的情况。

二、基于检索词的评价 TF-IDF：

基于检索词评价的思想非常朴素： 检索词匹配度越高的页面重要性越高。 “匹配度”就是要定义的具体度量。一个最直接的想法是关键词出现次数越多的页面匹配度越高。但是这样会造成一种情况。如果我们的的文章比较长，那么比较长的文章比比较短的文章网页关键词出现的次数就会多一些，这样我们基于检索词评价结果的重要性就显得不合理。所以有人对算法做了改进， 使用关键词出现的次数/文章的总词数 ，这种算法看起来很合理但是非常容易受到"Term Spam”的攻击。

通过一个例子介绍 Term Spam:
现在假设Google单纯使用关键词占比评价页面重要性，而我想让我的文章在搜索结果中排名更靠前（最好排第一）。那么我可以这么做：在页面中加入一个隐藏的html元素（例如一个div），例如我知道现在欧洲杯很火热，我就在我博客的隐藏div里加一万个“欧洲杯”，当有用户搜索欧洲杯时，我的博客就能出现在搜索结果较靠前的位置。 这种行为就叫做“Term Spam”。 这种行为甚至可以干扰别的关键词搜索结果。

早期搜索引擎

文章来源: maoli.blog.csdn.net，作者：刘润森！，版权归原作者所有，如需转载，请联系作者。

原文链接：maoli.blog.csdn.net/article/details/91359236

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

PageRanke算法

PageRanke算法的工作原理

早期的搜索引擎的做法：

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

PageRanke算法

PageRanke算法的工作原理

早期的搜索引擎的做法：

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品