hadoop学习-倒排索引
【摘要】
倒排索引是文档搜索系统中常用的数据结构。它主要用来存储某个词组在一个或多个文档中的位置映射。通常情况下,倒排索引由词组以及相关的文档列表组成。如下表所示。
表1:
单词 文档列表
单词1
文档1
文档2
文档3
单词2
...
倒排索引是文档搜索系统中常用的数据结构。它主要用来存储某个词组在一个或多个文档中的位置映射。通常情况下,倒排索引由词组以及相关的文档列表组成。如下表所示。
表1:
单词 文档列表
单词1 | 文档1 | 文档2 | 文档3 |
单词2 | 文档2 | 文档4 | 文档5 |
单词3 | 文档3 | 文档5 | 文档6 |
从表1可以看出单词1出现在{文档1,文档2,文档3},单词2出现在{文档2,文档4,文档5},单词3出现在{文档3,文档5,文档6}。
实际使用中还需要给文档添加一个权值,用来表示该词组与文档的相关性。如表2所示。
表2:
单词 文档列表
单词1 | 文档1 | 权 | 文档2 | 权 | 文档3 | 权 |
文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。
原文链接:wenyusuran.blog.csdn.net/article/details/26559807
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)