- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Python入门NLP（一）

举报

Python爱好者发表于 2020/12/30 01:22:26 2020/12/30

【摘要】 NLP（Natural Language Processing），自然语言处理，今天我们主要来研究一下如何用Python去完成简单的自然语言处理。 NPL可以用来做什么呢？他能做的事情非常多，例如翻译，垃圾邮件过滤，搜索引擎等等。今天我们用到的模块有： NLTK 专门做自然语言处理 bs4 BeautifulSo...

NLP（Natural Language Processing），自然语言处理，今天我们主要来研究一下如何用Python去完成简单的自然语言处理。

NPL可以用来做什么呢？

他能做的事情非常多，例如翻译，垃圾邮件过滤，搜索引擎等等。

今天我们用到的模块有：

NLTK 专门做自然语言处理

bs4 BeautifulSoup ，爬虫的一个框架

html5lib BeautifulSoup解析时用的

matplotlib 数据可视化（使词频统计更加形象的展示）

我们通过简单的pip安装语句就可以完成以上四个模块的安装了：

pip install nltk

pip install bs4

pip install html5lib

pip install matplotlib

以上模块完成安装之后我们需要完善一下nltk的库

在cmd指令窗输入Python（运行Python）：

import nltk

nltk.download()

弹出一个界面，把里面的所有模块都安装了（点击all即可），如下图：

之后我们用request去爬某个网页，再使用bs4清洗一下文字，最后再用split()处理一下：

输出结果：

我们现在通过nltk中的FreqDist()方法来统计词频：

输出：（输出结果太多，这里截取部分结果）

感觉太乱了，我们可以画图看看：

freq.plot(20,cumulative=False)

打印结果：

可以看出来Python出现的词频是最高的。

但是从上面的结果我们能看出一些无用的词汇，这时候就需要处理停用词了

清除无效的单词：

这样的效果会比刚刚好一点。

这一期我们就到这里吧

下期见。

文章来源: blog.csdn.net，作者：敲代码的灰太狼，版权归原作者所有，如需转载，请联系作者。

原文链接：blog.csdn.net/tongtongjing1765/article/details/100581659

【版权声明】本文为华为云社区用户转载文章，如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

评论（0）

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长