【愚公系列】《数据可视化分析与实践》035-数据可视化分析实战(全唐诗可视化分析案例)

💎【行业认证·权威头衔】
✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家
✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主
✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者
🏆【荣誉殿堂】
🎖 连续三年蝉联"华为云十佳博主"(2022-2024)
🎖 双冠加冕CSDN"年度博客之星TOP2"(2022&2023)
🎖 十余个技术社区年度杰出贡献奖得主
📚【知识宝库】
覆盖全栈技术矩阵:
◾ 编程语言:.NET/Java/Python/Go/Node…
◾ 移动生态:HarmonyOS/iOS/Android/小程序
◾ 前沿领域:物联网/网络安全/大数据/AI/元宇宙
◾ 游戏开发:Unity3D引擎深度解析
🚀前言
在当今这个数据时代,人们获取数据变得越来越容易,如何运用数据可视化技术从不同维度挖掘和解读隐藏在数据背后的信息变得越来越重要。本章将以《全唐诗》为基础,结合可视化图表挖掘隐藏在古诗背后的信息,从数据的角度来解读《全唐诗》,展示可视化技术的跨学科应用。
🚀一、全唐诗可视化分析案例
🔎1.背景介绍与问题提出
诗歌,是我国五千年文化瑰宝中最为璀璨的明珠,而唐诗则是这顶皇冠上最耀眼的钻石。唐朝,一个诗风鼎盛、文采飞扬的时代,达到了“全民皆诗”的文化高峰,其诗歌成就之辉煌,可谓前无古人,后亦难有来者。清代编纂的《全唐诗》,正是这一伟大时代的集大成者,全书共收录了超过四万八千九百首诗歌,分为九百卷,堪称中华古典诗歌的百科全书。
轻轻翻开《全唐诗》,一股浓郁而厚重的文化气息便扑面而来。书中的诗篇不仅出自李白、杜甫、白居易等青史留名的文人雅士,更涵盖了社会各个阶层的创作:有田园农夫的质朴吟唱,有市井工匠的即兴抒怀,甚至不乏风尘女子的深情绝唱。这种全民参与的文化现象,在世界文学史上都极为罕见。作为现代人,我们不仅应当诵读、背诵这些经典,更应珍视这份遗产,尝试以新的视角和方法去深入理解它,领悟其跨越千年的精神内核与艺术魅力。
在本章中,我们将进行一次别开生面的探索——从数据分析的视角重新解读《全唐诗》。我们将运用现代的数据可视化技术,对这部卷帙浩繁的诗歌总集进行量化分析。这种跨界尝试,旨在将 “数据之美” 与 “诗歌之雅” 相结合,或许能在冰冷的数字与温热的诗行之间,碰撞出意想不到的火花,发现一些仅凭传统阅读方法难以察觉的规律与趣味。
我们将借助DataEase这一强大的可视化工具,尝试解答以下几个有趣的问题:
- 产量之最:《全唐诗》中,收录作品数量最多的诗人是谁?谁是那位最高产的“劳模”诗人?
- 季节之咏:春夏秋冬,四季轮转。在诗人笔下,哪个季节最受青睐,被吟咏的次数最多?
- 字词之魂:在所有诗篇中,哪些汉字是诗人最钟爱、使用频率最高的?这些高频字背后反映了唐人怎样的集体意识与审美情趣?
- 地理之踪:诗人们的足迹与心迹寄托于哪些地名之中?哪些地方是唐诗中反复出现的“文化地标”?
🔎2.数据准备
在开始诗意的航行之前,我们需要先准备好可靠的“数据罗盘”。
🦋2.1 数据介绍
本案例所使用的数据文件包含了《全唐诗》中的42,986首古诗(文件路径:全唐诗.xlsx)。为了后续对诗歌用字进行深入分析,数据文件不仅包含了原诗,还预先对全部诗作内容进行了逐字切分与字频统计,并将分析结果一并保存。
该Excel文件包含两张核心工作表:
- “全唐诗”工作表:存储每首诗的原始信息。
- “全唐诗字频统计”工作表:存储全书所有汉字出现频率的统计结果。
表11-1 “全唐诗”工作表结构
| 列名 (英文) | 列名 (中文含义) | 说明 |
|---|---|---|
id |
编号 | 诗歌的唯一标识ID |
volume |
第几卷 | 诗歌在《全唐诗》中所在的卷数 |
sequence |
所在卷的第几篇 | 诗歌在该卷中的顺序 |
title |
古诗标题 | 诗歌的题目 |
author |
古诗作者 | 诗歌的作者。部分佚名作品标为“佚名” |
text |
古诗内容 | 诗歌的正文全文 |
此表共包含42,986条记录,对应42,986首诗歌。
表11-2 “全唐诗字频统计”工作表结构
| 列名 (英文) | 列名 (中文含义) | 说明 |
|---|---|---|
number |
编号/排名 | 该汉字在全书中的出现频率排名 |
word |
汉字 | 单个汉字 |
frequency |
字频 | 该汉字在《全唐诗》中出现的总次数 |
此表共包含7,520条记录,对应7,520个不同的汉字及其出现次数。
🦋2.2 添加数据源与数据集
接下来,我们需要将这些数据导入DataEase平台。
- 添加数据源:参考第6章的操作,新建一个 “Excel” 类型的数据源,命名为 “全唐诗”,并上传
全唐诗.xlsx文件。 - 创建数据集:由于数据文件中有两张工作表,我们需要分别创建两个数据集。
- 基于 “全唐诗” 工作表,创建名为 “全唐诗” 的数据集。这将用于分析诗人、季节、地名等。
- 基于 “全唐诗字频统计” 工作表,创建名为 “全唐诗字频统计” 的数据集。这将专门用于汉字频率分析。
- 两个数据集创建成功后,在数据集列表中的展示如图11-1所示。
图11-1 “全唐诗”与“全唐诗字频统计”数据集创建成功

🔎3.数据分析及可视化
数据准备就绪后,我们便可以针对之前提出的问题,逐一进行可视化分析,让数据自己“开口说话”。
首先,新建一个空白的仪表板,参照标准流程(见图11-2示意),将其命名为 “《全唐诗》可视化分析”,作为我们所有分析图表的展示舞台。
图11-2 新建仪表板操作示意
🦋3.1 谁的诗收录得最多?——诗人作品数量排行榜
问题:《全唐诗》中,哪位诗人的作品被收录得最多?
分析方法:这是一个典型的数量对比问题。我们需要统计每位诗人的作品数量,并进行排序比较。
图表选择:基础柱状图。柱状图的高度能直观地体现数值大小差异,是制作排行榜、进行横向对比的最佳选择之一。
制作步骤:
- 在“《全唐诗》可视化分析”仪表板中,添加一个 【基础柱状图】 组件。
- 绑定 “全唐诗” 数据集。
- 进行字段映射(见图11-3):
- 类别轴/维度:拖入
author(作者)字段。这将决定柱子的数量及标签。 - 值轴/指标:拖入
记录数*(系统自动生成的计数指标)字段。这将统计每位作者对应的诗歌数量,决定柱子的高度。
- 类别轴/维度:拖入
- 关键设置:
- 点击
记录数*字段的设置按钮,将其 【排序】 方式设置为 【降序】,让图表自动按作品数量从高到低排列。 - 在 【结果展示】 部分,将数量限制设为 【10】,只展示作品数量前十的诗人,使图表更聚焦。
- 点击
- 优化样式(见图11-3):
- 标题:设置为
收录数量前十榜单。 - 图例:关闭(单一系列数据无需图例)。
- 标签:开启数据标签,直接在柱顶显示具体的诗歌数量,便于精确阅读。
图11-3 诗人作品数量排行榜柱状图的数据与样式设置

- 标题:设置为
可视化结果:
制作完成的图表如图11-4所示,清晰展示了《全唐诗》的“十大高产诗人”。
图11-4 收录数量前十诗人榜单(柱状图最终效果)
深度解读:
- TOP 3 “唐诗三大巨头”:榜单前三名毫无悬念地被 白居易(诗王)、杜甫(诗圣)、李白(诗仙) 占据。这不仅印证了他们在文学史上的崇高地位,也直观反映了其创作精力之旺盛与作品流传之广。
- 神秘的“佚名”:位列第四的 “佚名” 是一个特殊的类别。这背后有多重原因:部分诗歌属于民间集体创作(如乐府民歌),作者难以考证;一些诗人因避祸或其他原因匿名发表;在漫长的抄录、流传过程中,部分作者信息也可能遗失。
- 诗僧的光彩:第五名的 齐己 和第八名的 贯休 是唐代著名的诗僧。他们的入榜提醒我们,唐代诗歌的繁荣是全社会、多阶层的共同成就。僧侣群体以其独特的方外视角与清净心境,为唐诗宝库贡献了别具一格的篇章(如山水禅意诗)。
🦋3.2 描写最多的季节是哪个?——诗人笔下的四季风华
问题:春、夏、秋、冬,哪个季节最能激发诗人的创作灵感?
分析方法:我们需要统计诗中直接出现“春”、“夏”、“秋”、“冬”这四个字的次数,并计算各自的比例。
图表选择:环形图。环形图(或饼图)是展示部分与整体比例关系的绝佳工具,能让人一眼看清四季被提及的频次占比。
制作步骤:
-
添加一个 【环形图】 组件。
-
绑定 “全唐诗字频统计” 数据集(因为我们直接分析“字”的频率)。
-
进行字段映射(见图11-5):
- 扇区标签/维度:拖入
word(汉字)字段。 - 扇区角度/指标:拖入
frequency(字频)字段,汇总方式保持默认的 【求和】。
- 扇区标签/维度:拖入
-
核心步骤:添加过滤器(见图11-6):
- 将
word字段再次拖入 【过滤器】 区域。 - 添加过滤条件:
word属于春, 夏, 秋, 冬。这样,图表将只分析与这四个季节字相关的数据。
图11-5 季节字频环形图的基础数据配置

图11-6 为环形图添加过滤器,限定只显示“春、夏、秋、冬”四字

- 将
-
优化样式:将标题设置为 【季节分布】,并可以调整颜色让四季分明。
可视化结果:
制作完成的环形图如图11-7所示,直观展示了四季字在唐诗中出现的频率对比。
图11-7 唐诗中“春、夏、秋、冬”四字出现频率占比环形图
深度解读:
- “春”的绝对主导:图表清晰显示,“春”字的出现频率超过50%,占据绝对优势。这强烈印证了春天在唐代诗人心中无与伦比的地位。春天象征着生机、希望、爱情与韶华,最易触动诗人敏感的心弦。
- 四季排序:按出现频率从高到低依次为:春 > 秋 > 夏 > 冬。
- 秋位列第二,符合“悲秋”的传统文学主题,秋天承载着诗人的离愁别绪、人生慨叹。
- 夏与冬相对较少被直接咏叹,或许因为它们极端的炎热与寒冷,更多作为背景而非核心情感载体。
🦋3.3 出现频率最高的汉字有哪些?——唐诗的“文字基因”
问题:抛开常见的虚词,哪些实义汉字是构筑唐诗大厦最常用的“砖石”?
分析方法:直接利用已统计好的字频数据,观察排名最靠前的汉字。
图表选择:词云图。词云图通过字体大小来视觉化权重,能让人在瞬间感知哪些元素最为突出,非常适合展示高频词汇。
制作步骤:
- 添加一个 【词云】 组件。
- 绑定 “全唐诗字频统计” 数据集。
- 进行字段映射(见图11-8):
- 词标签/维度:拖入
word(汉字)字段。 - 词大小/指标:拖入
frequency(字频)字段。字频越高,该词在云图中的字体就越大。 - 在 【结果展示】 中,将数量设为 【100】,展示前100个高频字,以获得更丰富的视图。
- 词标签/维度:拖入
- 优化样式:将标题设置为 【出现最多的汉字】。
可视化结果:
生成的高频汉字词云如图11-9所示,字体大小鲜明地展现了唐诗的核心词汇。
图11-8 高频汉字词云图的数据配置(展示前100字)
图11-9 唐诗高频汉字词云图(前100位)最终效果
深度解读:
- TOP 10 汉字:从数据集中可直接读出前十名是:不、人、山、风、无、一、日、云、有、何。
- 人文与自然的交响:这份名单极具深意。
- “人” 位居前列,体现了唐诗以人为本、关注社会与人生的核心精神。
- “山”、“风”、“日”、“云” 等自然意象的高频出现,印证了唐诗“寄情山水”的审美传统,自然景物是诗人抒情言志最主要的媒介。
- “不”、“无”、“有”、“何” 等字,则反映了诗歌中深刻的哲学思辨、情感矛盾与疑问探寻。
- 文化密码:这些高频字共同构成了唐诗的“基础语义场”,仿佛一套文化密码,揭示了唐代文人共同关注的世界、表达的情感与思考的方式。
🦋3.4 出现最多的地名有哪些?——诗歌中的“大唐地理图志”
问题:诗人们的目光聚焦于帝国的哪些区域?哪些地方是诗歌中的“网红打卡地”?
分析方法:在诗文中筛选出常见的地名,并统计它们出现的次数。
图表选择:指标卡。指标卡擅长以最简洁、最醒目的方式展示单个关键数据。多个指标卡并列,非常适合对比多个项目的具体数值。
制作步骤(以“长安”为例):
-
添加一个 【指标卡】 组件。
-
绑定 “全唐诗” 数据集。
-
关键步骤:添加过滤器(见图11-10, 图11-11):
- 将
text(诗歌内容)字段拖入 【过滤器】。 - 设置过滤条件为:
text包含长安。这将统计所有诗句内容中出现“长安”二字的诗歌数量。
图11-10 为地名指标卡绑定数据集

图11-11 设置指标卡的过滤条件(文本内容包含“长安”)

- 将
-
指标设置:将数据集指标中的
记录数*拖入指标卡的 【指标】 区域。 -
优化样式(见图11-12):
- 标题:手动修改为
长安,并对齐方式设为 【居中】。 - 指标名称:关闭(标题已说明内容,避免重复)。
- 调整指标卡大小,使其紧凑美观。
图11-12 “长安”指标卡的样式设置与大小调整

- 标题:手动修改为
-
复制与修改:完成“长安”指标卡后,通过复制、粘贴,快速创建其他地名的指标卡。只需修改每个新卡片的过滤条件(将“长安”替换为“洛阳”、“江南”等)和标题即可。
可视化结果:
最终得到一组并列的指标卡,如图11-13所示,清晰显示了各地名在《全唐诗》中出现的次数。
图11-13 唐代主要地名出现次数指标卡组
深度解读:
- 帝都双星:长安(772次) 与 洛阳(454次) 高居榜首,毫无悬念。长安是政治中心,洛阳是文化副都,二者共同构成了大唐帝国的中枢,是无数诗人求仕、游历、赠别、感怀的核心舞台。
- 江南情结:江南(379次) 位列第三,远超其他具体城市。这反映了“江南”作为一个富庶、优美、充满诗意的文化意象,早已深入人心,成为诗人寄托浪漫想象与归隐情怀的符号。
- 区域中心:金陵(南京)、扬州、荆州、长沙等地的出现,表明了这些区域重镇在唐代经济与文化版图中的重要地位。
🦋3.5 探索诗人与地名的关联——交互式查询
问题:我们知道了顶级诗人(白居易、杜甫、李白),也知道了热门地名(长安、洛阳、江南)。那么,在特定诗人的作品中,哪些地名出现得最多呢?
解决方案:使用 “查询组件” (即过滤器)实现交互式探索。让用户可以选择不同的诗人,动态查看该诗人诗作中的地名排行。
制作步骤:
-
在仪表板上添加一个 【查询组件】。
-
将
author字段拖拽到查询组件中。系统会弹出配置页面。 -
参照图11-14进行配置:
- 将字段显示名修改为更易懂的 “作者”。
- 设置 【展示类型】 为 “文本下拉”。
- 【选项值来源】 选择 “自动”,自动从“全唐诗”数据集中获取所有作者名单。
- 【选项类型】 选择 “单选”。
图11-14 作者查询组件的详细配置页面

-
设置联动:最关键的一步是,在查询组件的配置中,确保它与之前制作的地名指标卡关联。即,当选择一位作者时,指标卡的过滤条件应变为“同时满足:诗文中包含‘长安’ 并且 作者是‘XXX’”。这需要在指标卡原有的过滤器上,增加一个关于
author字段的联动条件(通常通过仪表板的联动设置或查询组件自动关联实现)。
交互探索:
完成配置后,在前端仪表板上操作(见图11-15):
- 在“作者”下拉查询框中,选择 【白居易】。
- 点击 【查询】 按钮。
- 下方所有的地名指标卡数值会实时刷新,显示的不再是全局次数,而是仅在白居易诗中出现的次数。
图11-15 选择“白居易”后,地名指标卡联动刷新(示例)
深度解读(以白居易为例):
- 江南挚爱:在白居易的个人榜单中,“江南”很可能跃居第一。这与他曾任杭州、苏州刺史的经历,以及创作《忆江南》《钱塘湖春行》等名篇密切相关。
- 长安宦迹:“长安”是其政治生涯的舞台,相关诗作记录了其仕途起伏与都市见闻。
- 洛阳归处:“洛阳”是他晚年闲居之地,反映了他“中隐”思想的归宿。
- 通过这种互动,我们实现了从宏观统计到微观个体研究的穿透,真正让数据服务于具体的文学研究问题。
🦋3.6 仪表板集成与发布
最后,我们将所有分析成果集成到一个专业的仪表板中。
操作步骤:
- 布局排版:在仪表板画布上,精心拖拽调整 “诗人榜柱状图”、“季节环形图”、“高频字词云”、“地名指标卡组” 以及 “作者查询组件” 的位置和大小,形成错落有致、重点突出的布局。
- 全局优化:通过仪表板的 【样式】 设置,统一调整配色、字体,确保整体风格协调、专业。
- 保存发布:保存仪表板,并可分享链接给他人查看。
最终成果:
制作完成的 “《全唐诗》可视化分析”综合仪表板 全景效果如图11-16所示。它不再是一系列孤立图表的堆砌,而是一个融宏观洞察、中观对比与微观探索于一体的交互式分析系统,生动诠释了如何用现代数据工具为古典文学研究注入新的活力。
图11-16 “《全唐诗》可视化分析”仪表板最终全景效果图
通过本章的实践,我们成功地将《全唐诗》这一文化宝库转化为可度量、可分析、可交互的数据景观,在数字时代完成了一次与千年诗魂的别致对话。
- 点赞
- 收藏
- 关注作者
















评论(0)