Py之jieba:Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略

举报
一个处女座的程序猿 发表于 2021/03/28 01:49:25 2021/03/28
【摘要】 Py之jieba:Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略         目录 jieba简介 jieba安装 jieba使用方法 1、进行分词     jieba简介 应该算得上是分词领域的佼佼者,想要使用python做文本分析,分词是必不可少的一个环节。 (1)支持三种分词模式:   (1)精确模式:...

Py之jieba:Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略

 

 

 

 

目录

jieba简介

jieba安装

jieba使用方法

1、进行分词


 

 

jieba简介


应该算得上是分词领域的佼佼者,想要使用python做文本分析,分词是必不可少的一个环节。
(1)支持三种分词模式:
  (1)精确模式:试图将句子最精确的切开,适合文本分析。
  (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。
  (3)搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
(2)支持繁体分词
(3)支持自定义词典
 

jieba安装


pip install jieba

好啦,大功告成,开始使用吧!

 

jieba使用方法

1、进行分词


  
  1. import jieba
  2. text='周杰伦(Jay Chou),1979年1月18日出生于台湾省新北市,祖籍福建省泉州市永春县,中国台湾流行乐男歌手、原创音乐人、演员、导演等,毕业于淡江中学。'
  3. text_cut = jieba.cut(text, cut_all=False)
  4. print(list(text_cut))

['周杰伦', '(', 'Jay', ' ', 'Chou', ')', ',', '1979', '年', '1', '月', '18', '日出', '生于', '台湾省', '新北市', ',', '祖籍', '福建省', '泉州市', '永春县', ',', '中国台湾', '流行乐', '男歌手', '、', '原创', '音乐', '人', '、', '演员', '、', '导演', '等', ',', '毕业', '于', '淡江', '中学', '。']
 




 

文章来源: yunyaniu.blog.csdn.net,作者:一个处女座的程序猿,版权归原作者所有,如需转载,请联系作者。

原文链接:yunyaniu.blog.csdn.net/article/details/79559696

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。