- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

分组与聚合分析：GroupBy操作实战

数字扫地僧发表于 2025/08/22 15:38:11 2025/08/22

【摘要】嗨，大家好！欢迎来到我的博客。今天，我们要深入探讨数据分析中一个超级有用的技术：分组与聚合分析，特别是GroupBy操作。无论你是数据分析新手还是想刷新技能，这篇博客都会带你从基础到实战，全面掌握GroupBy。分组与聚合分析是数据处理的核心部分，它允许我们根据某些条件将数据分成组，然后对每个组应用聚合函数（如求和、平均值等），从而提取有意义的洞察。想象一下，你是一家电商公司的数据分析师，老...

嗨，大家好！欢迎来到我的博客。今天，我们要深入探讨数据分析中一个超级有用的技术：分组与聚合分析，特别是GroupBy操作。无论你是数据分析新手还是想刷新技能，这篇博客都会带你从基础到实战，全面掌握GroupBy。

分组与聚合分析是数据处理的核心部分，它允许我们根据某些条件将数据分成组，然后对每个组应用聚合函数（如求和、平均值等），从而提取有意义的洞察。想象一下，你是一家电商公司的数据分析师，老板问你：“每个类别的产品销售额是多少？”或者“哪个地区的客户最活跃？”这些问题都可以通过GroupBy操作轻松解决。GroupBy让数据“分组说话”，帮助我们发现模式和支持决策。

I. GroupBy操作概述

分组与聚合分析是数据分析中的一种常见技术，它涉及将数据集分成多个组（基于一个或多个键），然后对每个组应用聚合函数（如sum、mean、count等）来计算摘要统计量。GroupBy操作是实现这一技术的关键，特别是在使用pandas等库时。

为什么GroupBy如此重要？因为在现实世界的数据中，我们经常需要比较不同类别的数据。例如：

在商业中，分析每个产品类别的销售总额。
在医疗中，比较不同年龄组的平均血压。
在教育中，查看每个班级的平均成绩。

GroupBy操作的基本步骤包括：

分组（Splitting）：根据某些条件将数据分成组。
应用（Applying）：对每个组应用一个函数，如聚合函数。
组合（Combining）：将各组的结果组合成一个新数据结构。

在pandas中，GroupBy通过groupby()方法实现，它返回一个GroupBy对象，然后我们可以用聚合方法如sum()、mean()等来操作。让我们用一個简单的例子来理解：假设我们有一个销售数据表，包含产品类别和销售额。GroupBy允许我们按类别分组，然后计算每个类别的总销售额。

为了更直观地理解，让我们用一個Mermaid图来总结这一章的核心概念。

Lexical error on line 3. Unrecognized text. ... A --> C[重要性: 比较类别、提取洞察] A --> D[基 -----------------------^

这就是GroupBy的概览。接下来，我们会深入探讨GroupBy的基础知识。

II. GroupBy操作基础

在这一章，我们将详细解释GroupBy操作的基础知识，包括语法、常用聚合函数和注意事项。我会用表格来列出关键点，然后逐一解释。

首先，让我们看看GroupBy在pandas中的基本语法。假设我们有一个DataFrame叫df，我们想根据列key分组，然后对另一列value求和，代码是：

df.groupby('key')['value'].sum()

这行代码做了三件事：

groupby('key')：根据key列的值将数据分成组。
['value']：选择要聚合的列。
sum()：应用求和聚合函数。

现在，让我们用表格列出常用的聚合函数和它们的描述。

聚合函数	描述	示例用法
sum()	计算总和	groupby(‘key’)[‘value’].sum()
mean()	计算平均值	groupby(‘key’)[‘value’].mean()
count()	计算非NA值的数量	groupby(‘key’)[‘value’].count()
min()	找最小值	groupby(‘key’)[‘value’].min()
max()	找最大值	groupby(‘key’)[‘value’].max()
std()	计算标准差	groupby(‘key’)[‘value’].std()
var()	计算方差	groupby(‘key’)[‘value’].var()
describe()	生成描述性统计摘要	groupby(‘key’)[‘value’].describe()

除了这些内置函数，我们还可以使用自定义聚合函数，通过agg()方法。例如，groupby('key').agg({'value': custom_func})。

GroupBy操作还支持多列分组。例如，根据key1和key2两列分组：df.groupby(['key1', 'key2'])['value'].sum()。这会创建一个多层次索引的结果。

注意事项：

缺失值处理：GroupBy默认忽略NaN值，但有时需要显式处理。
性能：对于大数据集，GroupBy可能较慢，可以考虑优化或使用Dask等库。
结果排序：分组键默认会排序，可以通过sort=False禁用排序以提高性能。

让我们通过一个简单示例来巩固理解。假设我们有如下数据：

import pandas as pd
data = {'Category': ['A', 'B', 'A', 'B', 'A'], 'Sales': [100, 200, 150, 300, 120]}
df = pd.DataFrame(data)
grouped = df.groupby('Category')['Sales'].sum()
print(grouped)

输出将是：

Category
A    370
B    500
Name: Sales, dtype: int64

这显示类别A的总销售额是370，类别B是500。

用Mermaid图总结这一章。

Lexical error on line 5. Unrecognized text. ... A --> E[注意事项: 缺失值、性能] B --> F[返回G -----------------------^

掌握了基础后，我们进入实战部分，通过一个实例来演示GroupBy操作。

III. 实例分析：使用GroupBy分析销售数据

现在，让我们通过一个实际实例来演示GroupBy操作。我将使用一个模拟的销售数据集，包含产品类别、地区、销售额和日期等信息。我们的目标是分析每个类别的总销售额、每个地区的平均销售额，以及更多洞察。这个实例会覆盖数据加载、分组聚合和可视化。

数据集介绍

我们创建一个模拟数据集，避免使用外部网址。数据集包含以下列：

Product_Category: 产品类别（如Electronics、Clothing）
Region: 地区（如North、South）
Sales: 销售额（美元）
Date: 销售日期

我们将用pandas生成这个数据集。

代码部署过程

首先，确保你安装了pandas和matplotlib。如果没有，运行：

pip install pandas matplotlib

然后，我们一步步进行：生成数据、分组聚合、可视化。

步骤1: 生成模拟数据

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 设置随机种子以确保可复现性
np.random.seed(42)

# 创建模拟数据
data = {
    'Product_Category': np.random.choice(['Electronics', 'Clothing', 'Home'], 100),
    'Region': np.random.choice(['North', 'South', 'East', 'West'], 100),
    'Sales': np.random.randint(100, 1000, 100),  # 销售额在100到1000之间
    'Date': pd.date_range('2023-01-01', periods=100, freq='D')
}
df = pd.DataFrame(data)
print("数据集前5行:")
print(df.head())

解释：

我们使用numpy生成随机数据。np.random.choice 从列表中随机选择值，生成100行数据。
Product_Category 有三种类型，Region 有四种，Sales 是随机整数，Date 是日期范围。
pd.DataFrame 创建DataFrame，head() 显示前5行以验证数据。

步骤2: 基本GroupBy操作

现在，我们按产品类别分组，计算每个类别的总销售额。

# 按产品类别分组并求和
category_sales = df.groupby('Product_Category')['Sales'].sum()
print("每个类别的总销售额:")
print(category_sales)

解释：

groupby('Product_Category') 根据类别分组，['Sales'] 选择销售额列，sum() 应用求和。
输出显示每个类别的总销售额，例如Electronics的总和。

接下来，按地区分组，计算每个地区的平均销售额。

# 按地区分组并计算平均值
region_avg_sales = df.groupby('Region')['Sales'].mean()
print("每个地区的平均销售额:")
print(region_avg_sales)

解释：

类似地，groupby('Region') 按地区分组，mean() 计算平均值。
这帮助我们了解哪个地区的销售表现最好。

步骤3: 多列分组

我们还可以按多个键分组，例如按类别和地区分组，计算总销售额。

# 按类别和地区分组并求和
category_region_sales = df.groupby(['Product_Category', 'Region'])['Sales'].sum()
print("每个类别和地区的总销售额:")
print(category_region_sales)

解释：

使用列表['Product_Category', 'Region']作为分组键，这会创建多层次索引。
输出显示每个组合的总销售额，例如Electronics在North地区的销售额。

步骤4: 使用agg进行多种聚合

有时我们需要同时应用多个聚合函数。使用agg()方法可以实现。

# 对销售额应用多种聚合函数
aggregations = df.groupby('Product_Category')['Sales'].agg(['sum', 'mean', 'count'])
print("每个类别的多种聚合统计:")
print(aggregations)

解释：

agg(['sum', 'mean', 'count']) 同时计算总和、平均值和计数。
这提供更全面的视图，例如每个类别的平均销售额和交易次数。

步骤5: 可视化结果

让我们用条形图可视化每个类别的总销售额。

# 可视化每个类别的总销售额
category_sales.plot(kind='bar', color=['skyblue', 'lightgreen', 'lightcoral'])
plt.title('总销售额 by 产品类别')
plt.xlabel('产品类别')
plt.ylabel('销售额')
plt.show()

解释：

plot(kind='bar') 创建条形图，设置颜色和标题。
可视化帮助快速比较类别，例如看到Clothing类别销售额最高。

通过这个实例，我们看到了GroupBy操作的实际应用。接下来，用Mermaid图总结这一章。

这个实例展示了GroupBy的强大功能。接下来，我们详细分解代码部署过程。

IV. 代码部署过程

在这一章，我会详细解释前面实例中的代码部署过程，包括环境设置、代码分段解释和最佳实践。代码部署是确保你能复现结果的关键。

环境设置

首先，你需要一个Python环境。我推荐使用Anaconda或直接安装Python。确保安装了以下库：

pandas: 用于数据处理和GroupBy操作。
numpy: 用于数值计算和生成随机数据。
matplotlib: 用于可视化。

安装命令（运行在终端）：

pip install pandas numpy matplotlib

代码分段详细解释

回顾实例代码，我们一步步来。

生成模拟数据部分

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(42)

data = {
    'Product_Category': np.random.choice(['Electronics', 'Clothing', 'Home'], 100),
    'Region': np.random.choice(['North', 'South', 'East', 'West'], 100),
    'Sales': np.random.randint(100, 1000, 100),
    'Date': pd.date_range('2023-01-01', periods=100, freq='D')
}
df = pd.DataFrame(data)
print("数据集前5行:")
print(df.head())

导入库: 导入必要库，pandas用于DataFrame，numpy用于随机数据生成，matplotlib用于绘图。
设置随机种子: np.random.seed(42) 确保每次运行生成相同随机数据，便于复现。
创建数据字典: 使用np.random.choice生成随机类别和地区，np.random.randint生成随机销售额，pd.date_range生成日期序列。
创建DataFrame: pd.DataFrame(data) 将字典转换为DataFrame，head() 打印前5行检查数据。

基本GroupBy操作部分

category_sales = df.groupby('Product_Category')['Sales'].sum()
print("每个类别的总销售额:")
print(category_sales)

region_avg_sales = df.groupby('Region')['Sales'].mean()
print("每个地区的平均销售额:")
print(region_avg_sales)

分组和聚合: groupby('Product_Category') 按类别分组，['Sales'].sum() 对销售额求和。类似地，按地区分组求平均值。
打印结果: 输出分组后的结果，这是Series对象，索引是分组键。

多列分组部分

category_region_sales = df.groupby(['Product_Category', 'Region'])['Sales'].sum()
print("每个类别和地区的总销售额:")
print(category_region_sales)

多键分组: 使用列表['Product_Category', 'Region']作为分组键，这会创建多层次索引的Series。
输出: 打印每个组合的总销售额，例如(‘Electronics’, ‘North’)的值。

使用agg进行多种聚合部分

aggregations = df.groupby('Product_Category')['Sales'].agg(['sum', 'mean', 'count'])
print("每个类别的多种聚合统计:")
print(aggregations)

agg方法: agg(['sum', 'mean', 'count']) 应用多个聚合函数，返回DataFrame，每列是一个聚合结果。
输出: 显示每个类别的总和、平均值和计数。

可视化部分

category_sales.plot(kind='bar', color=['skyblue', 'lightgreen', 'lightcoral'])
plt.title('总销售额 by 产品类别')
plt.xlabel('产品类别')
plt.ylabel('销售额')
plt.show()

绘图: plot(kind='bar') 创建条形图，设置颜色和标题。plt.show() 显示图表。
解释: 可视化使数据更直观，易于理解类别之间的差异。

最佳实践

代码注释: 始终添加注释，解释代码目的，便于维护和共享。
错误处理: 例如，检查数据是否为空或是否有NaN值，可以使用df.isnull().sum()来检查。
性能优化: 对于大数据集，使用sort=False在groupby中禁用排序，提高速度。
文档: 写文档描述代码功能，例如在Jupyter Notebook中使用Markdown单元格。

通过这个部署过程，你不仅运行了代码，还理解了为什么这样做。现在，用Mermaid图总结这一章。

代码部署是数据分析的核心技能，练习越多，越熟练。接下来，我们看看一些高级GroupBy技巧。

V. 高级GroupBy技巧

在这一章，我们将探讨一些高级GroupBy技巧，包括自定义聚合函数、处理缺失值、和使用transform方法。这些技巧可以让你更灵活地处理复杂数据分析任务。我会用表格列出技巧，然后详细解释。

首先，让我们用表格总结高级技巧。

技巧	描述	示例用法
自定义聚合函数	使用自定义函数进行聚合	groupby(‘key’).agg(custom_func)
处理缺失值	在分组前或后处理NaN值	groupby(‘key’)[‘value’].mean() 默认忽略NaN
transform方法	返回与原始数据相同大小的结果	groupby(‘key’)[‘value’].transform(‘mean’)
filter方法	过滤组 based on 条件	groupby(‘key’).filter(lambda x: x[‘value’].mean() > 10)
时间序列分组	按时间频率分组	groupby(pd.Grouper(key=‘Date’, freq=‘M’))

现在，详细讨论这些技巧。

自定义聚合函数
你可以定义自己的聚合函数，并使用agg()应用。例如，计算范围（最大值减最小值）：

def range_func(x):
    return x.max() - x.min()

df.groupby('Product_Category')['Sales'].agg(range_func)

这返回每个类别的销售额范围。

处理缺失值
GroupBy默认忽略NaN值，但有时需要显式处理。例如，在分组前填充缺失值：

df_filled = df.fillna({'Sales': 0})  # 将Sales的NaN填充为0
df_filled.groupby('Product_Category')['Sales'].mean()

transform方法
transform()方法返回一个与原始数据相同大小的Series，其中每个值是其组的聚合结果。例如，为每个行添加组平均值：

df['Group_Avg'] = df.groupby('Product_Category')['Sales'].transform('mean')

这创建一个新列Group_Avg，显示每个类别的平均销售额。

filter方法
filter()方法允许根据组的条件过滤数据。例如，只保留平均销售额大于500的组：

filtered_df = df.groupby('Product_Category').filter(lambda x: x['Sales'].mean() > 500)

这返回一个新的DataFrame，只包含满足条件的组的所有行。

时间序列分组
对于时间数据，可以使用pd.Grouper按时间频率分组。例如，按月分组计算销售额总和：

df.groupby(pd.Grouper(key='Date', freq='M'))['Sales'].sum()

这需要Date列是datetime类型。

这些高级技巧扩展了GroupBy的应用范围，让你能处理更复杂的场景。用Mermaid图总结这一章。

掌握了高级技巧后，我们总结整个博客。

VI. 结论

分组与聚合分析是数据分析中不可或缺的一部分，而GroupBy操作是实现这一点的关键工具。从基础到高级，我们涵盖了GroupBy的语法、实例应用、代码部署和高级技巧。通过实战示例，你看到了如何按类别和地区分组，计算聚合统计量，并可视化结果。

回顾关键点：

GroupBy操作包括分组、应用和组合步骤。
在pandas中，使用groupby()方法轻松实现。
实例分析展示了如何从数据中提取洞察，如每个类别的总销售额。
高级技巧如自定义聚合和transform方法，增加了灵活性。

GroupBy不仅适用于销售数据，还可以用于任何领域的数据分析。练习这些操作，将帮助你更高效地处理数据和支持决策。

未来，随着大数据和AI的发展，GroupBy操作可能会集成更多功能，但核心概念保持不变。继续学习和实践，你将成为数据分析高手！

感谢阅读这篇长篇博客！我希望它帮助你深入理解GroupBy操作。如果你有疑问或想分享经验，欢迎留言（尽管这里没有实际留言功能，但保持博客风格）。记住，数据分组是发现故事的第一步。Happy analyzing!

最后，用一個Mermaid图总结整个博客旅程。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

分组与聚合分析：GroupBy操作实战

I. GroupBy操作概述

II. GroupBy操作基础

III. 实例分析：使用GroupBy分析销售数据

数据集介绍

代码部署过程

步骤1: 生成模拟数据

步骤2: 基本GroupBy操作

步骤3: 多列分组

步骤4: 使用agg进行多种聚合

步骤5: 可视化结果

IV. 代码部署过程

环境设置

代码分段详细解释

最佳实践

V. 高级GroupBy技巧

VI. 结论

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

分组与聚合分析：GroupBy操作实战

I. GroupBy操作概述

II. GroupBy操作基础

III. 实例分析：使用GroupBy分析销售数据

数据集介绍

代码部署过程

步骤1: 生成模拟数据

步骤2: 基本GroupBy操作

步骤3: 多列分组

步骤4: 使用agg进行多种聚合

步骤5: 可视化结果

IV. 代码部署过程

环境设置

代码分段详细解释

最佳实践

V. 高级GroupBy技巧

VI. 结论

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品