文本挖掘的分词原理
在做文本挖掘的时候,首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词,但是也有时候需要把多个单词做为一个分词,比如一些名词如“New York”,需要做为一个词看待。而中文由于没有空格,分词就是一个需要专门去解决的问题了。无论是英文还是中文,分词的原理都是类似的,本文就对文本挖掘时的分词原理做一个总结。
1. 分词的基本原理
现代分词都是基于统计的分词,而统计的样本内容来自于一些标准的语料库。假如有一个句子:“小明来到荔湾区”,我们期望语料库统计后分词的结果是:"小明/来到/荔湾/区",而不是“小明/来到/荔/湾区”。那么如何做到这一点呢?
从统计的角度,我们期望"小明/来到/荔湾/区"这个分词后句子出现的概率要比“小明/来到/荔/湾区”大。如果用数学的语言来说说,如果有一个句子SS,它有m种分词选项如下:
A11A12...A1n1A11A12...A1n1
A21A22...A2n2A21A22...A2n2
........................
Am1Am2...AmnmAm1Am2...Amnm
其中下标nini代表第ii种分词的词个数。如果我们从中选择了最优的第rr种分词方法,那么这种分词方法对应的统计分布概率应该最大,即:
r=argmaxiP(Ai1,Ai2,...,Aini)r=argmax⏟iP(Ai1,Ai2,...,Aini)
但是我们的概率分布P(Ai1,Ai2,...,Aini)P(Ai1,Ai2,...,Aini)并不好求出来,因为它涉及到nini个分词的联合分布。在NLP中,为了简化计算,我们通常使用马尔科夫假设,即每一个分词
文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。
原文链接:wenyusuran.blog.csdn.net/article/details/98489209
- 点赞
- 收藏
- 关注作者
评论(0)