Python入门NLP(一)
NLP(Natural Language Processing),自然语言处理,今天我们主要来研究一下如何用Python去完成简单的自然语言处理。
NPL可以用来做什么呢?
他能做的事情非常多,例如翻译,垃圾邮件过滤,搜索引擎等等。
今天我们用到的模块有:
NLTK 专门做自然语言处理
bs4 BeautifulSoup ,爬虫的一个框架
html5lib BeautifulSoup解析时用的
matplotlib 数据可视化(使词频统计更加形象的展示)
我们通过简单的pip安装语句就可以完成以上四个模块的安装了:
pip install nltk
pip install bs4
pip install html5lib
pip install matplotlib
以上模块完成安装之后我们需要完善一下nltk的库
在cmd指令窗输入Python(运行Python):
import nltk
nltk.download()
弹出一个界面,把里面的所有模块都安装了(点击all即可),如下图:
之后我们用request去爬某个网页,再使用bs4清洗一下文字,最后再用split()处理一下:
输出结果:
我们现在通过nltk中的FreqDist()方法来统计词频:
输出:(输出结果太多,这里截取部分结果)
感觉太乱了,我们可以画图看看:
freq.plot(20,cumulative=False)
打印结果:
可以看出来Python出现的词频是最高的。
但是从上面的结果我们能看出一些无用的词汇,这时候就需要处理停用词了
清除无效的单词:
这样的效果会比刚刚好一点。
这一期我们就到这里吧
下期见。
文章来源: blog.csdn.net,作者:敲代码的灰太狼,版权归原作者所有,如需转载,请联系作者。
原文链接:blog.csdn.net/tongtongjing1765/article/details/100581659
- 点赞
- 收藏
- 关注作者
评论(0)