Python入门NLP(一)

举报
Python爱好者 发表于 2020/12/30 01:22:26 2020/12/30
【摘要】 NLP(Natural Language Processing),自然语言处理,今天我们主要来研究一下如何用Python去完成简单的自然语言处理。 NPL可以用来做什么呢? 他能做的事情非常多,例如翻译,垃圾邮件过滤,搜索引擎等等。 今天我们用到的模块有: NLTK         专门做自然语言处理 bs4             BeautifulSo...

NLP(Natural Language Processing),自然语言处理,今天我们主要来研究一下如何用Python去完成简单的自然语言处理。

NPL可以用来做什么呢?

他能做的事情非常多,例如翻译,垃圾邮件过滤,搜索引擎等等。

今天我们用到的模块有:

NLTK         专门做自然语言处理

bs4             BeautifulSoup ,爬虫的一个框架

html5lib      BeautifulSoup解析时用的

matplotlib   数据可视化(使词频统计更加形象的展示)

我们通过简单的pip安装语句就可以完成以上四个模块的安装了:

pip install nltk

pip install bs4

pip install html5lib

pip install matplotlib

以上模块完成安装之后我们需要完善一下nltk的库

在cmd指令窗输入Python(运行Python):

import nltk 

nltk.download()

640?wx_fmt=png

弹出一个界面,把里面的所有模块都安装了(点击all即可),如下图:

640?wx_fmt=png

之后我们用request去爬某个网页,再使用bs4清洗一下文字,最后再用split()处理一下:

640?wx_fmt=png

输出结果:

640?wx_fmt=png

我们现在通过nltk中的FreqDist()方法来统计词频:

640?wx_fmt=png

输出:(输出结果太多,这里截取部分结果)

640?wx_fmt=png

感觉太乱了,我们可以画图看看:

freq.plot(20,cumulative=False)

打印结果:

640?wx_fmt=png

可以看出来Python出现的词频是最高的。

但是从上面的结果我们能看出一些无用的词汇,这时候就需要处理停用词了

640?wx_fmt=png

清除无效的单词:

640?wx_fmt=png

这样的效果会比刚刚好一点。

这一期我们就到这里吧

下期见。

文章来源: blog.csdn.net,作者:敲代码的灰太狼,版权归原作者所有,如需转载,请联系作者。

原文链接:blog.csdn.net/tongtongjing1765/article/details/100581659

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。