初体验HanLP---Python自然语言处理(1)

举报
择城终老 发表于 2021/07/27 00:34:58 2021/07/27
【摘要】 目录 前言安装HanLP库词典的加载 前言 目前开源的自然语言处理工具有NLTK,CoreNLP,LTP,HanLP。对于我们中国的程序员来说,一般使用哈工大的LTP,或者使用开源的HanLP。 我们后续的讲解都是基于HanLP工具,它具有词法分析,句法分析,关键词提取以及文本分析等。优点是运行特别快,省内存,精度准且免费的特性。 安装HanLP库 ...

前言

目前开源的自然语言处理工具有NLTK,CoreNLP,LTP,HanLP。对于我们中国的程序员来说,一般使用哈工大的LTP,或者使用开源的HanLP。

我们后续的讲解都是基于HanLP工具,它具有词法分析,句法分析,关键词提取以及文本分析等。优点是运行特别快,省内存,精度准且免费的特性。

安装HanLP库

既然我们已经了解了HanLP库的优点,下面,我们安装该库用于后续的开发实战:

pip install pyhanlp -i https://pypi.tuna.tsinghua.edu.cn/simple

  
 
  • 1

需要注意的是,该库依赖于Java与Jpype。所以需要提前安装Visual C++,或者可以不安装Visual C++,安装Miniconda也行。当然java jdk是必须安装的。

检验安装是否成功可以通过如下代码验证:

print(HanLP.segment("你好,欢迎来到HanLP世界"))

  
 
  • 1

控制台输出如下内容,就表示安装成功:
输出结果

至于什么意思后续会讲解,这里暂时用于验证安装是否成功。

词典的加载

互联网上有许多公开的词典,比如搜狗实验室发布的互联网词典SogouW,清华大学开放中文词典THUOCL,以及HanLP库自带的词典。这里,我们后续的讲解一般也是使用HanLP库自带的词典进行操作。

下面,我们通过Python调用词典数据:

def load_dictionary(): IOUtil = JClass('com.hankcs.hanlp.corpus.io.IOUtil') path = HanLP.Config.CoreDictionaryPath.replace('.txt', '.mini.txt') dic = IOUtil.loadDictionary([path]) return set(dic.keySet())

  
 
  • 1
  • 2
  • 3
  • 4
  • 5

这里,我们首先获取到Java类IOUtil,然后取得HanLP库配置项Config中的词典路径。接着,使用IOUtil类的静态方法loadDictionary读取文件中的词典,它返回的是一个java Map对象,但我们不关心它的键值,所以将其转换一个python原生的set对象。运行之后,输出如下结果:
词典

文章来源: liyuanjinglyj.blog.csdn.net,作者:李元静,版权归原作者所有,如需转载,请联系作者。

原文链接:liyuanjinglyj.blog.csdn.net/article/details/114925487

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。