隐性语义索引(LSI)

举报
格图洛书 发表于 2021/12/30 01:09:45 2021/12/30
【摘要】 1.Introduction 在向量模型中,将查询和文档均表示成同一空间下的向量,可以使用余弦相似度进行评分计算。但是,向量空间表示方法没有能力处理自然语言理解中的两个经典问题:一词多义(polysemy)和一义多词(synonymy)。使用LSI可以利用词项的共现情况,将词和文档映射到潜在语义空间,从而去除了原始向量空间中的一些...

1.Introduction

在向量模型中,将查询和文档均表示成同一空间下的向量,可以使用余弦相似度进行评分计算。但是,向量空间表示方法没有能力处理自然语言理解中的两个经典问题:一词多义(polysemy)和一义多词(synonymy)。使用LSI可以利用词项的共现情况,将词和文档映射到潜在语义空间,从而去除了原始向量空间中的一些“噪音”,提高了信息检索的精确度。

2.SVD分解

文档集可以转换成词项-文档矩阵,每一行代表一个词项,每一列代表一个文档,矩阵元素(t,d)代表词项t在文档d中出现的次数。将词项-文档矩

文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。

原文链接:wenyusuran.blog.csdn.net/article/details/40818333

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。