- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

摘要抽取算法——最大边界相关算法MMR(Maximal Marginal Relevance) 实践

格图洛书发表于 2021/11/19 01:42:08 2021/11/19

【摘要】 NLP(自然语言处理)领域一个特别重要的任务叫做——文本摘要自动生成。此任务的主要目的是快速的抽取出一篇文章的主要内容，这样读者就能够通过最少的文字，了解到文章最要想表达的内容。由于抽取出来的摘要表达出了文章最主要的含义，所以在做长文本分类任务时，我们可以采用文本摘要算法将长文本的摘要抽取出来，在采用短文本分类模型去做文本分类，有时会起...

NLP(自然语言处理)领域一个特别重要的任务叫做——文本摘要自动生成。此任务的主要目的是快速的抽取出一篇文章的主要内容，这样读者就能够通过最少的文字，了解到文章最要想表达的内容。由于抽取出来的摘要表达出了文章最主要的含义，所以在做长文本分类任务时，我们可以采用文本摘要算法将长文本的摘要抽取出来，在采用短文本分类模型去做文本分类，有时会起到出奇的好效果。

文本摘要自动生成算法

文本摘要抽取算法主要分为两大类：

一种是生成式：生成式一般采用的是监督式学习算法，最常见的就是sequence2sequence模型，需要大量的训练数据。生成式的优点是模型可以学会自己总结文章的内容，而它的缺点是生成的摘要可能会出现语句不通顺的情况。
另一种是抽取式：常见的算法是 textrank，MMR(Maximal Marginal Relevance)，当然也可以采用深度学习算法。抽取式指的摘要是从文章中抽出一些重要的句子，代表整篇文章的内容。抽取式的优点是生成的摘要不会出现语句不通顺的情况，而它的缺点是缺乏文本总结能力，生成的摘要可能出现信息丢失的情况。

最大边界相关算法MMR(Maximal Marginal Relevance)

MMR算法又叫最大边界相关算法，此算法在设计之初是用来计算Query文本与被搜索文档之间的相似度，然后对文档进行rank排序的算法。算法公式如下：

其中 Q 是 Query文本，C 是被搜索文档集合，R是一个已经求得的以相关度为基础的初始集合, 指的是搜索返回的K个的句子的索引。

当我们做摘要抽取时，我

文章来源: wenyusuran.blog.csdn.net，作者：文宇肃然，版权归原作者所有，如需转载，请联系作者。

原文链接：wenyusuran.blog.csdn.net/article/details/107337800

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

摘要抽取算法——最大边界相关算法MMR(Maximal Marginal Relevance) 实践

文本摘要自动生成算法

最大边界相关算法MMR(Maximal Marginal Relevance)

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

摘要抽取算法——最大边界相关算法MMR(Maximal Marginal Relevance) 实践

文本摘要自动生成算法

最大边界相关算法MMR(Maximal Marginal Relevance)

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品