- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Py之jieba：Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略

一个处女座的程序猿发表于 2021/03/28 01:49:25 2021/03/28

【摘要】 Py之jieba：Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略目录 jieba简介 jieba安装 jieba使用方法 1、进行分词 jieba简介应该算得上是分词领域的佼佼者，想要使用python做文本分析，分词是必不可少的一个环节。 (1)支持三种分词模式：　　(1)精确模式：...

jieba简介

应该算得上是分词领域的佼佼者，想要使用python做文本分析，分词是必不可少的一个环节。
(1)支持三种分词模式：
　　(1)精确模式：试图将句子最精确的切开，适合文本分析。
　　(2)全模式：把句子中所有可以成词的词语都扫描出来，速度非常快，但是不能解决歧义。
　　(3)搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
(2)支持繁体分词
(3)支持自定义词典

jieba安装

pip install jieba

好啦，大功告成，开始使用吧！

jieba使用方法

1、进行分词


  
   
    
     
    
    
     
      import jieba
     
    
   
    
     
    
    
     
      text='周杰伦（Jay Chou），1979年1月18日出生于台湾省新北市，祖籍福建省泉州市永春县，中国台湾流行乐男歌手、原创音乐人、演员、导演等，毕业于淡江中学。'
     
    
   
    
     
    
    
     
      text_cut = jieba.cut(text, cut_all=False)
     
    
   
    
     
    
    
     
      print(list(text_cut))

['周杰伦', '（', 'Jay', ' ', 'Chou', '）', '，', '1979', '年', '1', '月', '18', '日出', '生于', '台湾省', '新北市', '，', '祖籍', '福建省', '泉州市', '永春县', '，', '中国台湾', '流行乐', '男歌手', '、', '原创', '音乐', '人', '、', '演员', '、', '导演', '等', '，', '毕业', '于', '淡江', '中学', '。']

文章来源: yunyaniu.blog.csdn.net，作者：一个处女座的程序猿，版权归原作者所有，如需转载，请联系作者。

原文链接：yunyaniu.blog.csdn.net/article/details/79559696

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Py之jieba：Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略

jieba简介

jieba安装

jieba使用方法

1、进行分词

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品