【愚公系列】《数据可视化分析与实践》001-数据可视化概述(数据可视化的基础知识)

💎【行业认证·权威头衔】
✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家
✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主
✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者
🏆【荣誉殿堂】
🎖 连续三年蝉联"华为云十佳博主"(2022-2024)
🎖 双冠加冕CSDN"年度博客之星TOP2"(2022&2023)
🎖 十余个技术社区年度杰出贡献奖得主
📚【知识宝库】
覆盖全栈技术矩阵:
◾ 编程语言:.NET/Java/Python/Go/Node…
◾ 移动生态:HarmonyOS/iOS/Android/小程序
◾ 前沿领域:物联网/网络安全/大数据/AI/元宇宙
◾ 游戏开发:Unity3D引擎深度解析
🚀前言
本章主要介绍数据可视化的基础知识、数据可视化图表和数据可视化工具。内容主要涵盖数据与数据可视化的基本概念、数据可视化的分类、数据可视化的过程(Ben Fry可视化流程、可视分析学的标准流程、数据可视化过程中的核心要素),以及数据可视化设计原则等内容。通过学习本章内容,读者可以深入了解数据可视化的基本原理和方法,掌握数据可视化的核心要素,为后续的数据分析和决策提供支持。
🚀一、数据可视化的基础知识
🔎1.数据与数据可视化
🦋1.1 数据与数据可视化的基本概念
数据可视化的基础是数据,那什么是数据呢?
数据是对事物描述的记录,是事实或观察的结果,是对客观事物的逻辑归纳。例如,描述一个人的基本特征,可以通过姓名、性别、身高、年龄等方面的数据来记录;描述某一地理位置,可以通过所在城市、街道、门牌号或者经度和纬度来记录。数据可以帮助人们有效地描述事物。数据可以是连续的值,如声音、图像;也可以是离散的,如符号、文字。前者称为模拟数据,后者称为数字(离散)数据。数据的表现形式多种多样,如数字、文字、图形、图像、音频、视频等形式。对同一事物的描述记录也可以有不同的数据表现形式,表1-1描述了一部电影的票房情况。
表1-1 描述一部电影的票房情况
| 数据类型 | 示例说明 |
|---|---|
| 数字数据 | 首周票房突破1亿 |
| 文字数据 | 票房持续走高,观众反响热烈 |
| 图形数据 | 用折线图或者柱状图表示电影票房随时间变化的趋势 |
当前,数据可视化是一个极为活跃的话题,也是一个不断演变的概念。结合各专家、学者的理解,可以认为:数据可视化指的是利用图形、图像处理、计算机视觉和用户界面,通过表达、建模和对立体、表面、属性及动画的显示,对数据进行可视化解释。数据可视化的实质是借助图形等各种形式,清晰、有效地传达与沟通信息。例如,让花费数小时甚至更久才能归纳的数据,转化成一眼就能读懂的指标;对于加减乘除、各类公式权衡计算得到的两组数据的差异,使用不同颜色、长短、大小的图形可以立即形成鲜明对比。比较图1-1的4组数据集,观察它们之间的区别。用统计学方法看这些数据,它们具有一样的平均值、方差,似乎没有规律,但我们在可视化后的图中可以很容易看出这些数据的规律。
图1-1 四组数据分布的可视化对比示意图
(此处应为四幅散点图或折线图,显示Anscombe四组数据在统计指标相同情况下的分布差异,突出可视化在揭示数据规律中的作用。)

数据是大数据时代的核心生产力,挖掘并发现数据的价值对推动社会的智能化发展具有重要意义。数据可视化提供了丰富的数据呈现方式和便捷的数据分析途径,帮助我们从数据中提取知识,从知识中获取价值。
数据可视化不仅提升信息传递的效率,还帮助人们发现数据中隐藏的模式、趋势和异常,辅助决策制定与问题解决,广泛应用于商业智能、公共政策、科学研究、健康医疗、教育传播等诸多领域。
🦋1.2 数据可视化的分类
数据可视化是一个跨学科的研究领域,目前有3个主要的研究方向,分别是科学可视化(Scientific Visualization, SciVis)、信息可视化(Information Visualization, InfoVis) 与可视分析学(Visual Analytics, VAST)。
1. 科学可视化(SciVis)
科学可视化利用计算机图形学将复杂的数据转化为视觉图像,帮助人们理解科学技术的概念或结果。科学可视化的目标是以图形方式说明科学数据,使人们能够从数据中观察、分析和发现规律。例如:
- 在气象学中,科学家利用该技术来展示和分析复杂的气流模式;
- 在生物学中,科学家通过该技术来呈现细胞结构和功能;
- 在医学领域,该技术有助于医生更直观地理解病人的病灶和生理过程。
科学可视化是数据可视化领域发展最早、最成熟的跨学科应用。一般来说,科学可视化处理的数据具有天然的几何结构,如磁力线、流体分布等。
图1-2 科学可视化示例:流体动力学模拟

2. 信息可视化(InfoVis)
信息可视化是研究抽象数据的交互式视觉表示,以加强人类的认知。与科学可视化相比,信息可视化的数据更贴近人们的生活与工作,它包括地理信息可视化、金融交易数据可视化、社交网络数据可视化和文本数据可视化等。信息可视化的处理对象一般是非结构化、非几何的抽象数据。如地理信息不仅包含经纬度数据,还包含交通流量数据,导航地图就是地理信息可视化的很好案例。
图1-3 信息可视化示例:交互式导航地图

3. 可视分析学(VAST)
根据Thomas Cook在2005年给出的定义,可视分析学是一种通过交互式可视化界面来辅助用户对大规模复杂数据集进行分析推理的科学与技术。可视分析学是一个综合性的学科,它融合了科学可视化、信息可视化、人机交互、认知科学、数据挖掘、信息论、决策理论等多个研究领域的理论和方法,旨在通过交互式可视化界面辅助用户进行数据分析、推理和决策。
图1-4 可视分析学示例:影响人口性别比例的因素玫瑰图

科学可视化、信息可视化和可视分析学三者之间没有清晰的边界:
- 科学可视化的研究重点是带有空间坐标和几何信息的医学影像数据、三维空间信息测量数据、流体计算模拟数据等;
- 信息可视化的研究重点主要是高维数据、数据间各种抽象关系、用户的敏捷交互和可视化有效性的评判等;
- 可视分析学偏重从各类已知数据中推理出新知识,其实质是可视化地完成机器智能和人脑智能的双向转换,整个过程是迭代的、螺旋式上升的。
数据可视化不仅是一门科学,还是一门艺术,它需要在功能与美学形式之间达到一种平衡。太注重实现复杂的功能会令可视化结果枯燥乏味,太注重美学形式会将信息埋没在绚丽多彩的图形中,让人难以捕捉。因此,数据可视化是一个庞大的领域,它涉及的学科如图1-5所示。
图1-5 数据可视化涉及的学科

🔎2.数据可视化的过程
数据可视化技术是将数据转换为易被用户感知和认知的可视化视图的重要手段,这个过程一般包括数据采集、数据清理、数据分析和可视化设计,以实现将抽象的原始数据转换为可视化图像。
在数据可视化历史上,诸多学者提出了自己对数据可视化过程的观点,本节主要介绍Ben Fry可视化流程、可视分析学的标准流程,以及数据可视化过程中的核心要素。
🦋2.1 Ben Fry 可视化流程
美国数据可视化专家Benjamin Fry撰写的《Visualizing Data》一书对数据可视化原理、方法、过程进行了详细介绍。Benjamin Fry将可视化流程分为7个步骤:
- 数据获取:收集原始数据。
- 数据解析:将数据转换为适合处理的格式,并对数据的每个部分进行标记。
- 数据过滤:删除不符合要求的数据,保留有用数据。
- 数据挖掘:对数据的属性进行交叉分析,寻找规律。
- 数据表示:根据数据维度和分析目标,确定可视化编码形式(如形状、颜色、位置等)。
- 完善表示:对可视化设计进行视觉优化,包括调整布局、色彩、字体、符号和对比度等。
- 数据交互:提供交互式界面,让用户能够控制并探索数据。
图1-6将以上7个步骤归纳为3个核心阶段:
图1-6 Ben Fry可视化流程的三个核心阶段

1. 原始数据的转换
包括数据获取、数据解析、数据过滤和数据挖掘。这一阶段主要任务是从原始数据中提取出有价值、结构化的信息,为后续的可视化呈现做准备。
2. 数据的视觉转换
包括数据表示和完善表示。数据表示是确定可视化编码的底层框架,直接影响图表的表达效果;完善表示则是在此基础上进行视觉优化,提升可读性和认知效率。
3. 界面交互
为用户提供控制和探索数据的途径。例如,允许用户在图表中聚焦特定指标、隐藏其他数据、缩放视图、查看细节等。交互性能够增强用户对数据的理解,帮助用户从多角度、多层次探索数据。
🦋2.2 可视分析学的标准流程
可视分析学的基本流程通过人机交互,将自动数据挖掘和可视化方法深度集成。欧洲学者Daniel Keim等人提出的可视分析学标准流程包括4个模块:数据、可视化、模型和知识,如图1-7所示。
图1-7 可视分析学的标准流程

在该流程中,起点是输入的数据,终点是提炼的知识。从数据到知识有两个途径:
- 可视化方法:通过交互式可视化界面,用户直接观察和探索数据,形成对数据的直观理解。
- 自动数据挖掘方法:通过算法和模型自动分析数据,提取模式和规律。
两个途径的中间结果分别是对数据的可视化结果和从数据中提炼的模型。用户既可以对可视化结果进行交互,也可以调节参数以修正模型。
1. 数据模块
可视分析学标准流程的起点,主要关注数据的采集、预处理和转换。包括:
- 数据采集:从各种来源获取所需数据。
- 预处理:清洗数据,消除冗余、错误和无效内容,确保数据质量。
- 数据转换:将数据转换为适合分析和可视化的格式。
2. 可视化模块
负责将数据以图形、图表等视觉形式展示出来,帮助用户直观理解和分析数据。在这一模块中,需要:
- 选择合适的可视化技术和工具。
- 根据数据特性和分析目标设计视图和界面。
- 提供交互式功能,让用户能够浏览和探索数据。
3. 模型模块
基于数据分析方法和技术,构建能够反映数据特征和规律的模型(如统计模型、机器学习模型等)。这些模型帮助用户揭示数据的深层结构和关系,支持更深入的分析和预测。
4. 知识模块
可视分析流程的最终目标,即通过前面各模块的工作,提取出有价值的知识和见解。知识模块将信息转换为对人类有意义和可理解的形式,辅助决策或进一步研究。
可视分析学的流程是一个迭代、循环的过程。用户通过与可视化界面和模型的交互,不断调整分析方向,深化对数据的理解,从而提炼出更准确、更深层次的知识。
🦋2.3 数据可视化过程中的核心要素
从Ben Fry可视化流程和可视分析学的标准流程可以看出,数据可视化过程中的核心要素主要包括以下4个方面:
1. 数据采集
数据可视化的第一步,即根据需求采用适当的方法和工具获取所需数据。目前,数据采集的来源非常广泛,包括:
- 传感器与智能设备(如物联网设备)
- 企业信息系统(如ERP、CRM)
- 社交网络平台(如微博、Twitter)
- 互联网平台(如公开数据集、网络爬虫获取的数据)
- 科研实验与观测数据
数据采集的质量和全面性直接影响后续分析的可信度和可视化效果。
2. 数据处理与变换
对原始数据进行预处理、清洗、整理和可能的转换,目的是将数据转化为结构清晰、易于理解且能够反映其内在规律和模式的形式。具体任务包括:
- 数据清洗:处理缺失值、异常值、重复值等。
- 数据格式化:统一数据格式,使其符合分析要求。
- 数据变换:如数据归一化、标准化、离散化等。
- 数据降维与特征提取:对于高维数据,通过主成分分析(PCA)等方法降低维度,或提取关键特征。
这一步骤为后续的可视化呈现奠定基础。
3. 数据的可视化呈现
将数据以直观、容易理解和操作的方式呈现给用户。这一步骤涉及:
- 选择可视化技术:根据数据类型和分析目标选择合适的图表类型(如折线图、柱状图、散点图、热力图等)。
- 视觉编码设计:利用位置、长度、角度、颜色、形状、纹理等视觉通道对数据进行编码。
- 视觉优化:调整颜色、字体、标签、图例、背景等视觉元素,确保信息清晰、美观。
可视化呈现的目的是帮助用户快速、准确地理解数据,发现数据中的模式、趋势和异常值。
4. 用户交互
用户通过与可视化系统之间的对话和互动来操作与理解数据的过程。交互设计可以使用户从被动接受信息变为主动探索数据。常见的交互方式包括:
- 筛选与过滤:允许用户选择感兴趣的数据子集。
- 缩放与平移:查看数据的细节或全局。
- 悬停提示:鼠标悬停时显示详细信息。
- 动态查询:通过控件(如滑块、下拉菜单)实时调整可视化结果。
- 链接与联动:多个视图之间相互关联,操作一个视图时其他视图同步更新。
交互性能够增强用户对数据的参与感,帮助用户从不同角度深入分析数据。
数据可视化的过程是一个系统性的工程,从数据采集到最终的知识呈现,每一步都至关重要。Ben Fry的可视化流程侧重于从原始数据到视觉表示的转换步骤,而可视分析学的标准流程则更强调人机交互和模型与可视化的结合。无论是哪种流程,核心要素都包括数据采集、处理、可视化呈现和用户交互。
在实际应用中,数据可视化过程往往是迭代的。用户通过交互发现新的问题,进而调整数据处理方法或可视化设计,如此循环,不断深化对数据的理解。因此,一个优秀的数据可视化系统不仅要提供美观、清晰的视觉呈现,还要支持灵活、高效的交互操作,帮助用户完成从数据到知识、从知识到决策的完整链条。
- 点赞
- 收藏
- 关注作者
评论(0)