- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

文本挖掘的分词原理

格图洛书发表于 2021/12/29 23:39:30 2021/12/29

【摘要】　在做文本挖掘的时候，首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词，但是也有时候需要把多个单词做为一个分词，比如一些名词如“New York”，需要做为一个词看待。而中文由于没有空格，分词就是一个需要专门去解决的问题了。无论是英文还是中文，分词的原理都是类似的，本文就对文本挖掘时的分词原理做一个总结。 1. 分词的...

　在做文本挖掘的时候，首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词，但是也有时候需要把多个单词做为一个分词，比如一些名词如“New York”，需要做为一个词看待。而中文由于没有空格，分词就是一个需要专门去解决的问题了。无论是英文还是中文，分词的原理都是类似的，本文就对文本挖掘时的分词原理做一个总结。

1. 分词的基本原理

　　　　现代分词都是基于统计的分词，而统计的样本内容来自于一些标准的语料库。假如有一个句子：“小明来到荔湾区”，我们期望语料库统计后分词的结果是："小明/来到/荔湾/区"，而不是“小明/来到/荔/湾区”。那么如何做到这一点呢？

　　　　从统计的角度，我们期望"小明/来到/荔湾/区"这个分词后句子出现的概率要比“小明/来到/荔/湾区”大。如果用数学的语言来说说，如果有一个句子SS,它有m种分词选项如下：

A11A12...A1n1A11A12...A1n1

A21A22...A2n2A21A22...A2n2

........................

Am1Am2...AmnmAm1Am2...Amnm

　　　　其中下标nini代表第ii种分词的词个数。如果我们从中选择了最优的第rr种分词方法，那么这种分词方法对应的统计分布概率应该最大，即：

r=argmaxiP(Ai1,Ai2,...,Aini)r=argmax⏟iP(Ai1,Ai2,...,Aini)

　　　　但是我们的概率分布P(Ai1,Ai2,...,Aini)P(Ai1,Ai2,...,Aini)并不好求出来，因为它涉及到nini个分词的联合分布。在NLP中，为了简化计算，我们通常使用马尔科夫假设，即每一个分词

文章来源: wenyusuran.blog.csdn.net，作者：文宇肃然，版权归原作者所有，如需转载，请联系作者。

原文链接：wenyusuran.blog.csdn.net/article/details/98489209

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

文本挖掘的分词原理

1. 分词的基本原理

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

文本挖掘的分词原理

1. 分词的基本原理

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品