Python:jieba中文分词的使用笔记
【摘要】 文档:https://github.com/fxsjy/jieba
安装
pip install jieba
1
分词
cut/lcut(self, sentence, cut_all=False, HMM=True, use_paddle=False)
# 参数:
sentence 需要分词的字符串;
cut_all 参数用来控制是否采用全模式;
HMM...
文档:https://github.com/fxsjy/jieba
安装
pip install jieba
- 1
分词
cut/lcut(self, sentence, cut_all=False, HMM=True, use_paddle=False)
# 参数:
sentence 需要分词的字符串;
cut_all 参数用来控制是否采用全模式;
HMM 参数用来控制是否使用 HMM 模型;
use_paddle 参数用来控制是否使用paddle模式下的分词模式
切出了词典中没有的词语,效果不理想,可以关闭新词发现 HMM=False
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
自定义词典
格式:
词语、词频(可省略)、词性(可省略)
- 1
示例 user-dict.txt
创新办 3 i
云计算 5
凱特琳 nz
台中
- 1
- 2
- 3
- 4
载入词典
# 载入词典
jieba.load_userdict(file_name)
- 1
- 2
修改词典
# 动态修改词典
add_word(word, freq=None, tag=None)
del_word(word)
# 调节单个词语的词频
suggest_freq(segment, tune=True)
- 1
- 2
- 3
- 4
- 5
- 6
改变主词典的路径
# 加载自定义词典
jieba_token = jieba.Tokenizer(dictionary='user-dict.txt')
# 或者 手动初始化
jieba.initialize(dictionary='user-dict.txt')
# 或者 改变主词典的路径
jieba.set_dictionary('user-dict.txt')
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
文章来源: pengshiyu.blog.csdn.net,作者:彭世瑜,版权归原作者所有,如需转载,请联系作者。
原文链接:pengshiyu.blog.csdn.net/article/details/114291284
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)