hadoop学习-倒排索引

格图洛书发表于 2022/01/01 00:49:27 2022/01/01

【摘要】倒排索引是文档搜索系统中常用的数据结构。它主要用来存储某个词组在一个或多个文档中的位置映射。通常情况下，倒排索引由词组以及相关的文档列表组成。如下表所示。表1：   单词      文档列表单词1 文档1 文档2 文档3 单词2 ...

倒排索引是文档搜索系统中常用的数据结构。它主要用来存储某个词组在一个或多个文档中的位置映射。通常情况下，倒排索引由词组以及相关的文档列表组成。如下表所示。

表1：

单词文档列表

从表1可以看出单词1出现在｛文档1，文档2，文档3｝，单词2出现在｛文档2，文档4，文档5｝，单词3出现在｛文档3，文档5，文档6｝。

实际使用中还需要给文档添加一个权值，用来表示该词组与文档的相关性。如表2所示。

表2：

单词文档列表

单词1

文档1

权

文档2

权

文档3

权

文章来源: wenyusuran.blog.csdn.net，作者：文宇肃然，版权归原作者所有，如需转载，请联系作者。

原文链接：wenyusuran.blog.csdn.net/article/details/26559807

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

上滑加载中

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。