【愚公系列】《Python网络爬虫从入门到精通》030-DataFrame数据的清洗
【摘要】 标题详情作者简介愚公搬代码头衔华为云特约编辑,华为云云享专家,华为开发者专家,华为产品云测专家,CSDN博客专家,CSDN商业化专家,阿里云专家博主,阿里云签约作者,腾讯云优秀博主,腾讯云内容共创官,掘金优秀博主,亚马逊技领云博主,51CTO博客专家等。近期荣誉2022年度博客之星TOP2,2023年度博客之星TOP2,2022年华为云十佳博主,2023年华为云十佳博主,2024年华为云十佳...
| 标题 | 详情 |
|---|---|
| 作者简介 | 愚公搬代码 |
| 头衔 | 华为云特约编辑,华为云云享专家,华为开发者专家,华为产品云测专家,CSDN博客专家,CSDN商业化专家,阿里云专家博主,阿里云签约作者,腾讯云优秀博主,腾讯云内容共创官,掘金优秀博主,亚马逊技领云博主,51CTO博客专家等。 |
| 近期荣誉 | 2022年度博客之星TOP2,2023年度博客之星TOP2,2022年华为云十佳博主,2023年华为云十佳博主,2024年华为云十佳博主等。 |
| 博客内容 | .NET、Java、Python、Go、Node、前端、IOS、Android、鸿蒙、Linux、物联网、网络安全、大数据、人工智能、U3D游戏、小程序等相关领域知识。 |
| 欢迎 | 👍点赞、✍评论、⭐收藏 |
🚀前言
在数据分析的过程中,数据清洗往往是最重要也是最耗时的环节之一。原始数据往往会包含缺失值、重复项、异常值等各种问题,这些问题如果不加以处理,可能会影响后续分析的准确性和可靠性。Pandas库中的DataFrame对象为我们提供了强大的数据清洗功能,使得这一过程变得更加高效和便捷。
本文将深入探讨DataFrame数据清洗的基本方法和技巧,包括处理缺失数据、去除重复项、转换数据类型以及应对异常值等常见问题。通过具体示例,我们将帮助你掌握如何利用Pandas对数据进行有效的清洗,从而为后续的数据分析打下坚实的基础。
🚀一、DataFrame数据的清洗
数据清洗是数据分析的关键步骤,主要包括处理缺失值(NaN)和去除重复数据。
🔎1.NaN数据处理
🦋1.1 修改元素为NaN
使用 numpy.nan 将指定元素标记为缺失值:
import pandas as pd
import numpy as np
data = {'A': [1, 2, 3, 4, 5], 'B': [6, 7, 8, 9, 10], 'C': [11, 12, 13, 14, 15]}
df = pd.DataFrame(data)
df.loc[0, 'A'] = np.nan # 将第1行A列设为NaN
print(df)
输出:
A B C
0 NaN 6 11
1 2.0 7 12
2 3.0 8 13
3 4.0 9 14
4 5.0 10 15
🦋1.2 统计NaN数据
-
isnull():识别NaN(返回布尔值表格)。 -
notnull():识别非NaN(返回布尔值表格)。
print('每列NaN数量:\n', df.isnull().sum())
print('每列非NaN数量:\n', df.notnull().sum())
输出:
每列NaN数量:
A 1
B 0
C 0
dtype: int64
每列非NaN数量:
A 4
B 5
C 5
dtype: int64
🦋1.3 筛选NaN元素
使用 dropna() 删除包含NaN的行或列:
# 删除包含NaN的行(默认axis=0)
df.dropna(inplace=True)
print(df)
# 删除所有元素均为NaN的列(axis=1, how='all')
df.dropna(axis=1, how='all', inplace=True)
输出:
A B C
1 2.0 7 12
2 3.0 8 13
3 4.0 9 14
4 5.0 10 15
🦋1.4 替换NaN元素
使用 fillna() 替换NaN为指定值:
# 全局替换为0
df.fillna(0, inplace=True)
# 按列替换(A列替换为0,B列替换为1,C列替换为2)
replace_dict = {'A': 0, 'B': 1, 'C': 2}
df.fillna(replace_dict, inplace=True)
替换前:
A B C
0 NaN 6 11
1 2.0 7 12
2 3.0 8 13
3 4.0 9 14
4 5.0 10 15
替换后:
A B C
0 0.0 6 11
1 2.0 7 12
2 3.0 8 13
3 4.0 9 14
4 5.0 10 15
🔎2.去除重复数据
使用 drop_duplicates() 方法去除重复行。 
在这里插入图片描述
🦋2.1 去除单列重复
data = {'A': ['A1', 'A1', 'A3'], 'B': ['B1', 'B2', 'B1']}
df = pd.DataFrame(data)
df.drop_duplicates(subset='A', inplace=True) # 保留A列第一条重复数据
print(df)
输出:
A B
0 A1 B1
2 A3 B1
🦋2.2 去除多列重复
data = {'A': ['A1', 'A1', 'A1', 'A2', 'A2'],
'B': ['B1', 'B1', 'B3', 'B4', 'B5'],
'C': ['C1', 'C2', 'C3', 'C4', 'C5']}
df = pd.DataFrame(data)
df.drop_duplicates(subset=['A', 'B'], inplace=True) # 保留A+B列组合第一条重复数据
print(df)
输出:
A B C
0 A1 B1 C1
2 A1 B3 C3
3 A2 B4 C4
4 A2 B5 C5
🦋2.3 删除所有重复行
data = {'A': ['A1', 'A1', 'A1', 'A1', 'A2'],
'B': ['B1', 'B1', 'B3', 'B3', 'B5'],
'C': ['C1', 'C1', 'C3', 'C3', 'C5']}
df = pd.DataFrame(data)
df = df.drop_duplicates() # 删除所有完全重复的行
print(df)
输出:
A B C
0 A1 B1 C1
2 A1 B3 C3
4 A2 B5 C5
🦋2.4 关键参数说明
-
subset:指定去重的列(默认所有列)。 -
keep:保留策略(first保留第一条,last保留最后一条,False删除所有重复)。 -
inplace:是否直接修改原数据(默认False返回新对象)。
🔎3.总结
-
NaN处理:通过标记、删除或替换处理缺失值,确保数据完整性。 -
去重操作:根据业务需求选择单列或多列去重,避免冗余数据影响分析结果。
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)