- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

分布可视化：直方图、箱线图与密度图

数字扫地僧发表于 2025/08/22 16:19:00 2025/08/22

【摘要】我们要深入探讨三种强大的分布可视化工具：直方图、箱线图和密度图。无论你是数据分析新手还是经验丰富的专业人士，理解这些图表如何揭示数据分布的秘密都是至关重要的。分布可视化是数据分析的核心部分。它帮助我们理解数据的形状、中心趋势、离散度和异常值。想象一下，你有一组销售数据，通过可视化分布，你可以快速看到大多数交易落在哪个范围，是否存在异常高或低的订单，或者数据是否对称。这些洞察可以指导业务决策，...

我们要深入探讨三种强大的分布可视化工具：直方图、箱线图和密度图。无论你是数据分析新手还是经验丰富的专业人士，理解这些图表如何揭示数据分布的秘密都是至关重要的。

分布可视化是数据分析的核心部分。它帮助我们理解数据的形状、中心趋势、离散度和异常值。想象一下，你有一组销售数据，通过可视化分布，你可以快速看到大多数交易落在哪个范围，是否存在异常高或低的订单，或者数据是否对称。这些洞察可以指导业务决策，比如调整定价策略或识别潜在问题。

I. 分布可视化概述

分布可视化是指使用图形来表示数据的分布特征，包括中心趋势、变异性、形状和异常值。它是探索性数据分析（EDA）的关键组成部分，帮助我们快速理解数据集而不陷入数字的泥潭。

为什么分布可视化重要？因为数字摘要（如均值和标准差）只能告诉我们部分故事。例如，两个数据集可能有相同的均值和标准差，但分布形状完全不同——一个是对称的，另一个是偏斜的。通过可视化，我们可以直观地捕捉这些差异，从而做出更准确的分析。

常见的分布可视化图表包括：

直方图：用条形表示数据频率，显示数据的分组分布。
箱线图：显示数据的五数摘要（最小值、第一四分位数、中位数、第三四分位数、最大值），并标识异常值。
密度图：类似于直方图，但使用平滑曲线来估计概率密度函数。

这些图表各有优缺点，适用于不同场景。例如，直方图适合大型数据集，箱线图适合比较多个分布，密度图适合可视化连续分布。在后续章节，我们会详细探讨每种图表。

分布可视化的应用广泛，从商业分析到科学研究。例如，在金融领域，分析师使用分布可视化来评估投资回报的风险；在医疗领域，研究人员用它来检查生物指标的分布。

为了更直观地理解这一章的核心概念，让我们用一個Mermaid图来总结。

Lexical error on line 4. Unrecognized text. ... A --> D[常见图表: 直方图、箱线图、密度图] B --> -----------------------^

这就是分布可视化的概览。接下来，我们会深入探讨每种图表类型。

II. 直方图详解

直方图是一种经典的可视化工具，用于显示连续数据的频率分布。它将数据分成等宽的区间（称为“箱”或“bin”），并绘制条形表示每个区间的观测数。直方图简单却强大，能够显示数据的整体形状、偏斜度和模态（单峰、双峰等）。

直方图的基本概念

直方图的核心在于选择适当的箱宽。箱宽太小，直方图可能过于碎片化，隐藏整体趋势；箱宽太大，可能过度平滑，丢失细节。选择箱宽是一门艺术，通常需要尝试不同值。

直方图的组成部分包括：

箱：数据区间，条形的高度表示该区间的频率。
轴：x轴表示数据值，y轴表示频率或密度。
标题和标签：使图表易于理解。

直方图 vs. 条形图：虽然外观相似，但直方图用于连续数据，条形间无间隙；条形图用于分类数据，条形间有间隙。

如何解读直方图

解读直方图时，关注以下特征：

形状：对称（如正态分布）、偏左（负偏斜）、偏右（正偏斜）、或多峰。
中心：数据集中位置，可通过中位数或均值估计。
** spread**：数据变异性，可通过范围或标准差估计。
异常值：远离主体的数据点，可能表示错误或特殊事件。

例如，一个销售数据的直方图可能显示大多数订单金额在$50-$100之间，右侧有一个长尾，表示少数高额订单。

实例分析：使用直方图可视化销售数据

假设我们有一组零售商的日销售数据，我们将用直方图来探索分布。数据包含1000个观测值，模拟生成。

首先，我们生成数据并绘制直方图。

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 生成模拟销售数据（单位：美元）
np.random.seed(42)  # 确保可复现
sales_data = np.concatenate([
    np.random.normal(50, 10, 600),  # 主要分布：均值50，标准差10
    np.random.normal(100, 30, 300), # 次要分布：均值100，标准差30
    np.random.normal(200, 50, 100)  # 异常值分布：均值200，标准差50
])

# 绘制直方图
plt.figure(figsize=(10, 6))
plt.hist(sales_data, bins=30, alpha=0.7, color='skyblue', edgecolor='black')
plt.title('日销售数据分布', fontsize=16)
plt.xlabel('销售金额（美元）')
plt.ylabel('频率')
plt.grid(axis='y', alpha=0.75)
plt.show()

解释：

我们使用numpy生成混合正态分布的数据，模拟真实销售场景：大多数销售 around $50, 一些 around $100, 少数高额销售 around $200。
plt.hist 绘制直方图：bins=30 指定箱数，alpha=0.7 设置透明度，edgecolor='black' 添加条形边框。
标题和标签使图表自解释，网格线提高可读性。

从直方图中，我们可以看到：

分布右偏，表示大多数销售金额较低，但存在一些高值。
可能的多峰迹象，表明有不同客户群体或产品类型。

为了优化直方图，我们可以尝试不同箱数。例如，减少箱数可能更清晰显示整体形状，增加箱数可能揭示更多细节。

直方图是探索数据的第一步，但有时我们需要更精确的工具。接下来，我们看看箱线图。

III. 箱线图详解

箱线图（又称盒须图）由John Tukey发明，是一种标准化方式来表示数据的五数摘要：最小值、第一四分位数（Q1）、中位数、第三四分位数（Q3）和最大值。它还标识了异常值，使其成为比较多个分布的理想选择。

箱线图的基本概念

箱线图的核心组件包括：

箱：表示 interquartile range (IQR)，从Q1到Q3，箱内线表示中位数。
须：从箱延伸至最小和最大非异常值。
异常值：单独点表示的数据点，通常定义为小于Q1 - 1.5IQR或大于Q3 + 1.5IQR。

箱线图 compactly 显示分布的中心、 spread 和偏斜。中位数线在箱内的位置表示偏斜：如果线靠近箱底，分布右偏；如果靠近箱顶，左偏。

如何解读箱线图

解读箱线图时，关注：

中位数：数据的中心趋势。
IQR：中间50%数据的范围，衡量变异性。
须：显示数据范围，忽略异常值。
异常值：潜在问题或特殊情况。

例如，在比较多个产品类别的销售数据时，箱线图可以显示哪个类别有更高 median sales，哪个类别有更多变异性。

实例分析：使用箱线图比较多个类别

假设我们有三个产品类别（A、B、C）的销售数据，我们将用箱线图比较它们的分布。数据模拟生成。

# 生成三个类别的销售数据
np.random.seed(42)
category_a = np.random.normal(50, 15, 200)
category_b = np.random.normal(70, 20, 200)
category_c = np.random.normal(90, 25, 200)

# 组合数据
data_to_plot = [category_a, category_b, category_c]

# 绘制箱线图
plt.figure(figsize=(10, 6))
plt.boxplot(data_to_plot, labels=['Category A', 'Category B', 'Category C'])
plt.title('销售数据按类别比较', fontsize=16)
plt.ylabel('销售金额（美元）')
plt.grid(axis='y', alpha=0.75)
plt.show()

解释：

我们生成三个正态分布数据集，分别对应三个类别，具有不同均值和标准差。
plt.boxplot 绘制箱线图：labels 参数设置类别标签。
网格线提高可读性。

从箱线图中，我们可以看到：

Category C 有最高中位数销售金额，Category A 最低。
Category C 的IQR更大，表示销售金额变异性更高。
所有类别都有一些异常值（图上点的点），尤其在右侧。

箱线图非常适合比较，因为它占用空间小且显示丰富信息。然而，它不显示分布形状的细节，如多峰性。这时，密度图可能有用。

IV. 密度图详解

密度图（或核密度估计图）是直方图的平滑版本，它使用核函数来估计概率密度函数。密度图连续且平滑，更好地显示分布形状，尤其适合比较多个分布。

密度图的基本概念

密度图的核心是核密度估计（KDE），它是一种非参数方法，用于估计随机变量的概率密度函数。KDE通过将每个数据点替换为一个核函数（通常是高斯核），并求和这些核来生成平滑曲线。

密度图的优点包括：

平滑性：提供连续分布视图，避免直方图的箱 artifacts。
比较：易于叠加多个密度图进行比较。
可视化：更好地显示分布形状。

缺点包括：

带宽选择：类似于直方图的箱宽，带宽影响平滑程度；太小可能过拟合，太大可能欠拟合。
解释：y轴表示密度，不是频率，可能需要适应。

如何解读密度图

解读密度图时，关注：

峰值：表示数据密集区域。
尾部：显示数据的偏斜。
多峰：表明可能存在子群体。

例如，客户年龄的密度图可能显示两个峰值，表示两个主要年龄组。

实例分析：使用密度图可视化年龄分布

假设我们有一组客户年龄数据，我们将用密度图来探索分布。数据模拟生成，包含两个峰。

# 生成模拟年龄数据
np.random.seed(42)
age_data = np.concatenate([
    np.random.normal(30, 5, 300),  # 年轻群体
    np.random.normal(50, 8, 200)   # 年长群体
])

# 绘制密度图
plt.figure(figsize=(10, 6))
sns.kdeplot(age_data, shade=True, color='lightcoral')
plt.title('客户年龄分布', fontsize=16)
plt.xlabel('年龄')
plt.ylabel('密度')
plt.grid(alpha=0.75)
plt.show()

解释：

我们生成混合正态分布数据，模拟两个年龄群体。
sns.kdeplot 绘制密度图：shade=True 填充曲线下区域，color 设置颜色。
使用Seaborn库，它提供高级接口。

从密度图中，我们可以清晰看到双峰分布，表示两个主要年龄组：一个 around 30岁，另一个 around 50岁。这可能对应不同客户细分，如年轻专业人士和中年家庭。

密度图非常适合这种场景，因为直方图可能需要精细调箱才能显示双峰，而箱线图会完全丢失多峰信息。

V. 综合比较与实例分析

现在，我们已经介绍了直方图、箱线图和密度图，让我们综合比较它们，并通过一个实例展示如何结合使用这些图表来全面理解数据分布。

图表比较

下表总结了三种图表的优缺点和适用场景。

图表类型	优点	缺点	适用场景
直方图	简单、直观、显示频率	箱宽选择敏感、可能隐藏细节	大型数据集、初步探索
箱线图	显示五数摘要、标识异常值、紧凑	不显示分布形状、可能误导	比较多个分布、识别异常值
密度图	平滑、显示分布形状、易于比较	带宽选择敏感、解释复杂	连续分布、比较形状

选择图表时，考虑你的目标：

如果你想知道数据频率分布，用直方图。
如果你想比较多个分布或找异常值，用箱线图。
如果你想可视化平滑分布或比较形状，用密度图。

实例分析：全面分析房屋价格数据

假设我们有一组房屋价格数据，包含两个区域（Urban和Suburban）。我们将使用所有三种图表来探索分布。

首先，生成数据。

# 生成房屋价格数据
np.random.seed(42)
urban_prices = np.random.normal(300000, 50000, 400)
suburban_prices = np.random.normal(250000, 40000, 400)

# 组合数据
all_prices = np.concatenate([urban_prices, suburban_prices])
labels = ['Urban'] * len(urban_prices) + ['Suburban'] * len(suburban_prices)

现在，我们绘制直方图、箱线图和密度图。

直方图

plt.figure(figsize=(10, 6))
plt.hist(urban_prices, bins=30, alpha=0.5, label='Urban', color='blue')
plt.hist(suburban_prices, bins=30, alpha=0.5, label='Suburban', color='green')
plt.title('房屋价格分布 by Region')
plt.xlabel('价格（美元）')
plt.ylabel('频率')
plt.legend()
plt.grid(alpha=0.75)
plt.show()

箱线图

plt.figure(figsize=(10, 6))
plt.boxplot([urban_prices, suburban_prices], labels=['Urban', 'Suburban'])
plt.title('房屋价格比较 by Region')
plt.ylabel('价格（美元）')
plt.grid(axis='y', alpha=0.75)
plt.show()

密度图

plt.figure(figsize=(10, 6))
sns.kdeplot(urban_prices, shade=True, label='Urban', color='blue')
sns.kdeplot(suburban_prices, shade=True, label='Suburban', color='green')
plt.title('房屋价格密度 by Region')
plt.xlabel('价格（美元）')
plt.ylabel('密度')
plt.legend()
plt.grid(alpha=0.75)
plt.show()

从这些图表中，我们可以得出：

直方图：显示Urban和Suburban的价格频率，但重叠可能使比较困难。
箱线图：清晰显示Urban的中位数价格更高，变异性更大，且有异常值。
密度图：显示Urban分布右移，且更 spread out，符合箱线图发现。

结合使用这些图表，我们获得全面理解：Urban区域房屋价格更高但更可变，Suburban区域更可预测。

为了总结这一章，让我们用Mermaid图表示图表选择流程。

VI. 代码部署过程

在这一章，我会详细解释前面实例中的代码部署过程，包括环境设置、代码分段解释和最佳实践。我们将使用Python和Matplotlib/Seaborn，确保你能复现结果。

环境设置

首先，确保你安装了Python和必要库。我推荐使用Anaconda发行版，它预装了数据科学库。或者，使用pip安装：

pip install numpy matplotlib seaborn

代码分段详细解释

我们以房屋价格实例为例，解释代码。

导入库

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

numpy：用于数值计算和生成模拟数据。
matplotlib.pyplot：用于创建静态、交互式可视化。
seaborn：基于Matplotlib的高级可视化库，提供更美观的默认样式和高级功能。

生成数据

np.random.seed(42)
urban_prices = np.random.normal(300000, 50000, 400)
suburban_prices = np.random.normal(250000, 40000, 400)

np.random.seed(42)：设置随机种子，确保每次运行生成相同数据。
np.random.normal(mean, std, size)：生成正态分布数据。对于Urban，均值300000，标准差50000；Suburban均值250000，标准差40000。

绘制直方图

plt.figure(figsize=(10, 6))
plt.hist(urban_prices, bins=30, alpha=0.5, label='Urban', color='blue')
plt.hist(suburban_prices, bins=30, alpha=0.5, label='Suburban', color='green')
plt.title('房屋价格分布 by Region')
plt.xlabel('价格（美元）')
plt.ylabel('频率')
plt.legend()
plt.grid(alpha=0.75)
plt.show()

plt.figure(figsize=(10, 6))：创建图形，设置大小。
plt.hist：绘制直方图。bins=30指定箱数，alpha=0.5设置透明度以便重叠可见，label用于图例。
plt.title, plt.xlabel, plt.ylabel：添加标题和轴标签。
plt.legend()：显示图例。
plt.grid(alpha=0.75)：添加网格线，alpha控制透明度。
plt.show()：显示图形。

绘制箱线图

plt.figure(figsize=(10, 6))
plt.boxplot([urban_prices, suburban_prices], labels=['Urban', 'Suburban'])
plt.title('房屋价格比较 by Region')
plt.ylabel('价格（美元）')
plt.grid(axis='y', alpha=0.75)
plt.show()

plt.boxplot(data, labels)：绘制箱线图。data是列表的列表，labels设置x轴标签。
grid(axis='y')：只添加y轴网格线。

绘制密度图

plt.figure(figsize=(10, 6))
sns.kdeplot(urban_prices, shade=True, label='Urban', color='blue')
sns.kdeplot(suburban_prices, shade=True, label='Suburban', color='green')
plt.title('房屋价格密度 by Region')
plt.xlabel('价格（美元）')
plt.ylabel('密度')
plt.legend()
plt.grid(alpha=0.75)
plt.show()

sns.kdeplot(data, shade=True)：绘制密度图并填充曲线下区域。
Seaborn自动处理估计，默认使用高斯核。

最佳实践

一致性：使用相同轴范围以便比较。
注释：添加标题、标签、图例，使图表自解释。
探索：尝试不同参数（如箱数、带宽）以优化可视化。
保存：使用plt.savefig('filename.png')保存图表用于报告。

通过这个部署过程，你学会了如何生成数据并创建三种分布可视化。现在，用Mermaid图总结代码流程。

VII. 结论

分布可视化是数据分析的基石，直方图、箱线图和密度图各具特色，帮助我们从不同角度理解数据。在这篇博客中，我们涵盖了它们的基本概念、如何解读、以及实际代码实现。通过实例，我们看到了如何结合使用这些图表来获得全面洞察。

回顾关键点：

直方图：最佳用于显示频率分布，但需谨慎选择箱宽。
箱线图：理想用于比较分布和识别异常值，但隐藏形状细节。
密度图：优秀用于可视化平滑分布形状，但带宽选择敏感。

选择正确图表取决于你的目标。在实践中， often use multiple plots together to get a complete picture.

未来，随着数据规模增长，分布可视化将继续 evolve，例如与交互式可视化集成。但核心原则不变：让数据说话。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

分布可视化：直方图、箱线图与密度图

I. 分布可视化概述

II. 直方图详解

直方图的基本概念

如何解读直方图

实例分析：使用直方图可视化销售数据

III. 箱线图详解

箱线图的基本概念

如何解读箱线图

实例分析：使用箱线图比较多个类别

IV. 密度图详解

密度图的基本概念

如何解读密度图

实例分析：使用密度图可视化年龄分布

V. 综合比较与实例分析

图表比较

实例分析：全面分析房屋价格数据

VI. 代码部署过程

环境设置

代码分段详细解释

最佳实践

VII. 结论

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

分布可视化：直方图、箱线图与密度图

I. 分布可视化概述

II. 直方图详解

直方图的基本概念

如何解读直方图

实例分析：使用直方图可视化销售数据

III. 箱线图详解

箱线图的基本概念

如何解读箱线图

实例分析：使用箱线图比较多个类别

IV. 密度图详解

密度图的基本概念

如何解读密度图

实例分析：使用密度图可视化年龄分布

V. 综合比较与实例分析

图表比较

实例分析：全面分析房屋价格数据

VI. 代码部署过程

环境设置

代码分段详细解释

最佳实践

VII. 结论

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品