- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

使用jieba分析《太古神王》看看男主更爱谁？

技术火炬手发表于 2019/07/24 10:55:17 2019/07/24

【摘要】特大好消息周三晚上，我媳妇儿就要带着俩小爷去重庆姐姐家玩了，我又可以一个人开心的学习、玩耍了，想着都开心到失眠啊…失眠怎么办？写公众号啊，哈哈。文本分析很多时候，我们会去统计一片文章中的高频词汇，以此来作为文章的关键词条，那么词频分析在python中，该用什么模块做？jieba！第一次听到这个词就乐了，一个“结巴”，帮助我们统计词频…但仔细了解这个模块后，你会发现它的强大。怎么证明？来看看g...

特大好消息

周三晚上，我媳妇儿就要带着俩小爷去重庆姐姐家玩了，我又可以一个人开心的学习、玩耍了，想着都开心到失眠啊…失眠怎么办？写公众号啊，哈哈。

文本分析

很多时候，我们会去统计一片文章中的高频词汇，以此来作为文章的关键词条，那么词频分析在python中，该用什么模块做？jieba！

第一次听到这个词就乐了，一个“结巴”，帮助我们统计词频…但仔细了解这个模块后，你会发现它的强大。怎么证明？来看看github。

19K的star，5000+fork你就知道它多受欢迎了！让我们先来学学jieba。

jieba介绍

jieba的github上readme写的非常详细，如果大家喜欢可以去仔细学习：jieba gihub地址。这里挑我们代码需要用到的地方讲解下…

安装： pip install jieba

以下内容引用自jieba github

“结巴”中文分词：做最好的 Python 中文分词组件

分词

jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型
jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细
待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8
jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用
jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。

代码示例
# encoding=utf-8
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))
输出:
【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
【精确模式】: 我/ 来到/ 北京/ 清华大学
【新词识别】：他, 来到, 了, 网易, 杭研, 大厦    (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)
【搜索引擎模式】：小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

设置解析词语

add_word(word, freq=None, tag=None) 添加词语

比如上面的实力，我们想将中国科学院作为一个整体让jieba分析，那么我们可以jieba.add_word(‘中国科学院’)

jieba.load_userdict(file_name) 用户可以自定义分词字典

如果我们有成套的字典来提升词语识别，可以创建一个文本，将这些词语存储在文本中。具体格式如下：

词语、词频（可省略）、词性（可省略）

创新办 3 i

云计算 5

凱特琳 nz

台中

关键字抽取

刚才看到分词，不管我们是使用哪种方式，最终获得的都是迭代器或者的表，那我们如果想无脑输出词频权重较高的top多少次，如何做？

使用import jieba.analyse

import jieba.analyse

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())

sentence 为待提取的文本

topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20

withWeight 为是否一并返回关键词权重值，默认值为 False

allowPOS 仅包括指定词性的词，默认值为空，即不筛选

jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例，idf_path 为 IDF 频率文件

但这种统计过于无脑，更多的情况下，还是要我们自己来配置….

分析什么？

说过了如何分词，获取词频。可我们没有数据，到底该分析什么？分析python书籍未免太过逗比，所以嘛还是分析点有意思的东西吧！前几天看新闻中国的玄幻小说，在老外的眼里简直就是至宝，什么掉下悬崖捡宝、穿越远古修仙、犀利哥重生附身，在我们看来俗到掉渣的剧情，老外看到都觉得是神来之笔！那么今天我们就来分析一部修仙小说吧…个人比较喜欢净无痕的书，绝世武神、太古神王到如今的伏天氏。但最近感觉写的越来越水。所以今天我们就来分析太古神王这部小说吧，貌似它已经拍成电视剧了。怎么获取全本内容？之前写的文章使用Python开发小说下载器，不再为下载小说而发愁就派上用场了，2000+章的小说全本下载。话说刚开始用写好的工具是，平均1秒3章，最近很多朋友反馈工具很慢，进来自己用了下两三秒才一章，难道跟我有关系？还是收敛点的好….边写着文章，手机边下载着，总算完了：

那分析什么内容呢，太古神王里面有两个女主叶倾城、长青青儿。那么秦问天到底更爱谁？

代码实现

只统计主角和两个女主，有些太过无趣，所以咱们多统计点词汇给50个吧…看看会有哪些：

# -*- coding: utf-8 -*-
# @Author   : 王翔
# @JianShu  : 清风Python
# @Date     : 2019/7/24 2:23
# @Software : PyCharm
# @version  ：Python 3.7.3
# @File     : DearestGirl.py
import jieba
class DearestGirl:
    ROLES = "秦问天 倾城 青儿"

    def __init__(self):
        self.result = dict()

    def add_key_word(self):
        for user in self.ROLES.split():
            jieba.add_word(user)

    def cut_word(self):
        data = open("太古神王全本.txt", encoding='utf-8').read()
        jieba_cut = jieba.cut(data)
        for word in jieba_cut:
            if word not in self.ROLES.split():
                continue
            else:
                self.result[word] = self.result.get(word, 0) + 1

    def sort_words(self):
        print(sorted(self.result.items(), key=lambda x: x[1], reverse=True))
if __name__ == '__main__':
    main = DearestGirl()
    main.add_key_word()
    main.cut_word()
    main.sort_words()
output:
[('秦问天',35182), ('倾城',2085), ('青儿',2028)]

这就懵逼了，这俩女主居然词频这相近，可再看看男主的词频…有一个问题呼之欲出，这部小说是一部男主自恋的小说，他最爱的是自己！通篇都是他…哈哈。

那么这样就完了？不行不行，既然词频都出来了，顺带生成一下词云呗…

wordcloud

今天上班苗妹子还问到了关于这个模块，当然得用用了…

最终代码如下：

# -*- coding: utf-8 -*-
# @Author   : 王翔
# @JianShu  : 清风Python
# @Date     : 2019/7/24 2:23
# @Software : PyCharm
# @version  ：Python 3.7.3
# @File     : DearestGirl.py
import jieba
from wordcloud import WordCloud, ImageColorGenerator, STOPWORDS
import numpy as np
from PIL import Image


class DearestGirl:
    ROLES = "秦问天 倾城 青儿"

    def __init__(self):
        self.result = dict()

    def add_key_word(self):
        for user in self.ROLES.split():
            jieba.add_word(user)

    def cut_word(self):
        data = open("太古神王全本.txt", encoding='utf-8').read()
        jieba_cut = jieba.cut(data)
        for word in jieba_cut:
            if word not in self.ROLES.split():
                continue
            else:
                self.result[word] = self.result.get(word, 0) + 1

    def sort_words(self):
        print(sorted(self.result.items(), key=lambda x: x[1], reverse=True))

    def word_cloud(self):
        mask = np.array(Image.open('bk.png'))
        wc = WordCloud(
            font_path='C:/Windows/Fonts/simhei.ttf',  # 设置字体格式
            mask=mask,
            max_words=200,
            max_font_size=100
        )
        wc.generate_from_frequencies(self.result)
        image_colors = ImageColorGenerator(mask)
        wc.recolor(color_func=image_colors)
        wc.to_file('result.jpg')


if __name__ == '__main__':
    main = DearestGirl()
    main.add_key_word()
    main.cut_word()
    main.sort_words()

The End

OK,今天的内容就到这里，如果觉得内容对你有所帮助，欢迎点击文章右下角的“在看”。

期待你关注我的公众号清风Python，如果你觉得不错，希望能动动手指转发给你身边的朋友们。

-------------

作者：王翔|清风Python

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

使用jieba分析《太古神王》看看男主更爱谁？

特大好消息

文本分析

jieba介绍

分词

设置解析词语

关键字抽取

分析什么？

代码实现

The End

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

使用jieba分析《太古神王》看看男主更爱谁？

特大好消息

文本分析

jieba介绍

分词

设置解析词语

关键字抽取

分析什么？

代码实现

The End

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品