Google如何识别重复内容的主要版本
识别重复内容的主要版本
我们知道Google不会惩罚Web上的重复内容,但是它可能会尝试确定与同一页面的其他版本相比,它更喜欢哪个版本。
我在本周早些时候从Web上的Dejan SEO上发现了有关重复内容的声明,对此感到奇怪,并决定进行更多调查:
如果网络上同一文档有多个实例,则具有最高权限的URL将成为规范版本。其余被视为重复项。
上面的引文摘自Link inversion上的帖子,这是鲜为人知的主要排名因素。(这不是我在帖子中所说的。我想看看专利中是否可能有类似的东西。我发现了更接近的东西,但并没有说Dejan所预言的那样。
我阅读了Dejan SEO的有关重复内容的文章,并认为值得进一步探讨。当我环顾其中包含“ Authority”一词的Google专利时,我发现该专利与Dejan所说的不完全相同,但是很有趣,因为它找到了区分不同重复内容的方法。基于优先级规则的域,这在确定哪些重复内容可能位于文档的最高权限URL时很有趣。
该专利是:
识别文档的主要版本
发明者:Alexandre A. Verstak和Anurag Acharya
受让人:Google Inc.
美国专利:9,779,072
授予:2017年10月3日
提交:2013年7月31日
抽象
一种系统和方法从同一文档的不同版本中识别主要版本。系统基于优先级规则和与文档版本相关联的信息为每个文档版本选择权限的优先级,并基于权限的优先级和与文档版本相关联的信息选择主要版本。
由于专利的权利要求是美国专利商标局的专利审查员在起诉专利时要看的,并决定是否应授予专利。我认为有必要查看专利中包含的权利要求,看看它们是否有助于封装所涵盖的内容。第一个捕获了它的某些方面,这些方面在讨论特定重复页面的不同文档版本时值得考虑,以及如何查看与文档关联的元数据以确定哪个是文档的主要版本:
要求保护的是:
1.一种方法,包括:通过计算机系统,识别特定文档的多个不同文档版本;以及 通过计算机系统识别与多个不同文档版本的每个文档版本相关联的第一类型的元数据,其中第一类型的元数据包括描述提供多个不同文档的每个文档版本的源的数据版本;由计算机系统识别与多个不同文档版本的每个文档版本相关联的第二类型的元数据,其中第二类型的元数据描述了多个不同文档版本的每个文档版本的特征,而不是文件版本的来源;对于多个不同文档版本中的每个文档版本,所述计算机系统将优先级规则应用于所述第一类型的元数据和所述第二类型的元数据,以生成优先级值;由计算机系统基于为多个不同文档版本中的每个文档版本生成的优先级值,从多个不同文档版本中选择特定文档版本;并由计算机系统提供用于呈现的特定文档版本。
这并没有提出将文档的主要版本视为该文档的规范版本的主张,并且指向该文档的所有链接都被重定向到该主要版本。
与该发明人共享另一项发明人的专利是,它引用了一个重复内容URL中的一个被选为代表页面,尽管它没有使用“规范”一词。根据该专利:
共享相同内容的重复文档由网络搜寻器系统识别。接收到新爬网的文档后,将识别一组与新爬网的文档共享相同内容的先前爬网的文档(如果有)。标识新爬网文档和所选文档集的信息合并为标识新文档集的信息。基于每个此类文档的独立于查询的度量,重复的文档将包括在新文档集中或从新文档集中排除。在一组预定义条件之后,将为新文档集标识单个代表文档。
在一些实施例中,一种用于从一组重复文档中选择代表性文档的方法包括:基于第一文档与独立于查询的分数相关联,在多个文档中选择第一文档,其中多个文档中的每个相应文档多个文档的指纹具有标识各个文档的内容的指纹,多个文档中的每个相应文档的指纹指示多个文档中的每个相应文档具有与多个文档中的每个其他文档基本上相同的内容,并且多个文档中的第一文档与独立查询分数相关联。该方法还包括:根据查询独立分数,对第一文档进行索引,从而产生被索引的第一文档;以及
该其他专利是:
一组重复文档的代表性文档选择
发明人:Daniel Dulitz,Alexandre A. Verstak,Sanjay Ghemawat和Jeffrey A. Dean
受让人:Google Inc.
美国专利:8,868,559
授予:2014年10月21日
提交:2012年8月30日
抽象
公开了用于从一组重复文档中索引代表性文档的系统和方法。公开的系统和方法包括基于第一文档与独立于查询的得分相关联来在多个文档中选择第一文档。多个文档中的每个相应文档具有指纹,该指纹指示相应文档具有与多个文档中的每个其他文档基本上相同的内容。公开的系统和方法还包括在独立于查询的分数之后对第一文档进行索引,从而产生索引的第一文档。关于多个文档,在文档索引中仅包括索引的第一文档。
不管该重复页面集的主要版本是否被视为第二篇专利中建议的代表性文档(可能确切地意味着什么),我认为重要的是要更好地理解文档的主要版本可能是什么是。
为什么将一组重复内容中的一个版本视为主要版本
主要版本专利提供了一些原因,为什么其中一个可以被视为主要版本:
(1)包含同一文档的不同版本不会提供其他有用信息,也不会使用户受益。
(2)包含同一文档不同版本的搜索结果可能会挤出应包含的各种内容。
(3)在搜索结果中存在文档的多个不同版本的情况下,用户可能不知道哪个版本最权威,最完整或最易于访问,因此可能会浪费时间来访问不同版本以进行比较。
这就是该重复内容专利认为从网络上出现的文档的不同版本中识别主要版本的理想原因的三个原因。搜索引擎还希望提供“最合适,最可靠的搜索结果”。
它是如何工作的?
该专利告诉我们,一种标识主要版本的方法如下。
可以从几种不同的来源(例如在线数据库,网站和图书馆数据系统)中识别文档的不同版本。
对于每个文档版本,将基于以下条件选择权限的优先级:
(1)与文档版本关联的元数据信息,例如
- 来源
- 独家出版权
- 许可权
- 引用信息
- 关键词
- 网页排名
- 类似
(2)第二步,然后使用长度度量确定文档版本以进行长度限定。具有较高优先级和限定长度的版本被视为文档的主要版本。
如果两个文档版本都不具有较高的优先级和限定的长度,则将根据与每个文档版本相关的信息总数来选择主要版本。
该专利告诉我们,学术作品倾向于按照该专利的程序进行工作:
由于学术文献的作品必须遵守严格的格式要求,因此诸如期刊文章,会议文章,学术论文以及期刊文章,会议文章和学术论文的引用记录之类的文档都具有描述文档内容和来源的元数据信息。结果,学术文献作品是识别子系统的良好候选者。
在此过程中可能要查看的元数据可能包括以下内容:
- 作者姓名
- 标题
- 发行人
- 发布日期
- 出版地点
- 关键词
- 网页排名
- 引用信息
- 文章标识符,例如数字对象标识符,PubMed标识符,SICI,ISBN等
- 网络运行(例如URL)
- 参考计数
- 引用次数
- 语言
- 等等
重复内容专利对确定文档主要版本的方法进行了更深入的研究:
优先级规则生成一个数值(例如,分数)以反映权威性,完整性或对文档版本的最佳访问。在一个示例中,优先级规则基于源优先级列表来确定由文档版本的源分配给文档版本的权限的优先级。源优先级列表包括源列表,每个源具有相应的权限优先级。来源的优先级可以基于编辑选择,包括考虑外部因素,例如来源的声誉,来源的出版语料库大小,更新的频率或更新频率,或任何其他因素。因此,每个文档版本都与权限的优先级关联;可以在表,树或其他数据结构中维护此关联。
该专利包括一个表格,该表格说明了源优先级列表。
该专利还包括一些替代方法。它告诉我们“确定文档版本是否具有合格优先级的优先级度量可以基于合格优先级值。”
合格的优先级值是根据优先级规则确定文档版本是权威的,完整的还是易于访问的阈值。当文档版本的分配优先级大于或等于合格优先级值时,根据优先级规则,该文档被认为是权威,完整或易于访问的。替代地,合格优先级可以基于相对度量,例如给定一组文档版本的优先级,仅将最高优先级视为合格优先级。
重复内容带走
我们无法确定是否像我在本文开头链接的Dejan SEO文章中所建议的那样,将主文档当作所有重复文档的规范URL一样对待,但有趣的是, Google可以确定文档的哪个版本可能是主要版本。我没有深入了解用于确定原始文档的量化长度,但是专利确实花了一些时间来解决这个问题。
这是鲜为人知的排名因素吗?在识别重复内容的主要版本方面,Google专利确实在识别其认为是许多重复文档中最重要的版本方面显得有些重要。我不确定大多数网站所有者可以使用这里的任何内容来帮助他们使他们的页面在搜索结果中排名更高,但是很高兴看到Google可能对该主题进行了更深入的探讨。
文章来源: haiyong.blog.csdn.net,作者:海拥✘,版权归原作者所有,如需转载,请联系作者。
原文链接:haiyong.blog.csdn.net/article/details/110000076
- 点赞
- 收藏
- 关注作者
评论(0)