- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Python 教程之数据分析（5）—— 使用 Python 进行数据分析和可视化 | 第 2 套

海拥发表于 2023/03/28 23:40:33 2023/03/28

【摘要】 1. 以 CSV 格式存储 DataFrame：Pandas提供**to.csv('filename', index = "False|True")** 了将 DataFrame 写入 CSV 文件的功能。这*filename是您要创建的 CSV 文件的名称，并index告诉 DataFrame 的索引（如果默认）是否应该被覆盖。如果我们设置*index = False，则索引不会被覆盖。默...

1. 以 CSV 格式存储 DataFrame：

Pandas提供**to.csv('filename', index = "False|True")** 了将 DataFrame 写入 CSV 文件的功能。这*filename是您要创建的 CSV 文件的名称，并index告诉 DataFrame 的索引（如果默认）是否应该被覆盖。如果我们设置*index = False，则索引不会被覆盖。默认情况下，索引的值是TRUE**索引被覆盖。

例子：

import pandas as pd

# 将三个系列分配给 s1、s2、s3
s1 = pd.Series([0, 4, 8])
s2 = pd.Series([1, 5, 9])
s3 = pd.Series([2, 6, 10])

# 获取索引和列值
dframe = pd.DataFrame([s1, s2, s3])

# 分配列名
dframe.columns =['Geeks', 'For', 'Geeks']

# 将数据写入 csv 文件
dframe.to_csv('geeksforgeeks.csv', index = False)
dframe.to_csv('geeksforgeeks1.csv', index = True)

输出：

geeksforgeeks2.csv

2. 处理缺失数据

数据分析阶段还包括处理数据集中缺失数据的能力，Pandas 也达到了这一预期也就不足为奇了。这就是dropna和/或fillna方法发挥作用的地方。在处理缺失数据时，作为数据分析师，您应该删除包含NaN 值的列（dropna 方法），或者使用整列条目的平均值或众数填充缺失数据（fillna 方法），这个决定是意义重大，取决于数据和影响将在我们的结果中产生。

删除丢失的数据：
考虑这是由以下代码生成的 DataFrame：

import pandas as pd

# 创建一个数据框
dframe = pd.DataFrame({'Geeks': [23, 24, 22],
					'For': [10, 12, np.nan],
					'geeks': [0, np.nan, np.nan]},
					columns =['Geeks', 'For', 'geeks'])

# 这将删除所有具有 NAN 值的行

# 如果未定义轴，则它沿行，即轴 = 0
dframe.dropna(inplace = True)
print(dframe)

# 如果轴等于 1
dframe.dropna(axis = 1, inplace = True)

print(dframe)

输出：

axis=0

axis=1

填充缺失值：
现在，使用数据的平均值或模式替换任何NaNfillna值，它可以根据要求替换特定列甚至整个DataFrame中的所有 NaN 值。

import numpy as np
import pandas as pd

# 创建一个数据框
dframe = pd.DataFrame({'Geeks': [23, 24, 22],
						'For': [10, 12, np.nan],
						'geeks': [0, np.nan, np.nan]},
						columns = ['Geeks', 'For', 'geeks'])

# 使用完整Dataframe的fillna

# 价值函数将应用于每一列
dframe.fillna(value = dframe.mean(), inplace = True)
print(dframe)

# 一列的填充值
dframe['For'].fillna(value = dframe['For'].mean(),
									inplace = True)
print(dframe)

输出：

3. Groupby 方法（聚合）：

groupby 方法允许我们根据任何行或列将数据分组在一起，因此我们可以进一步应用聚合函数来分析我们的数据。使用 mapper（dict 或 key 函数，将给定函数应用于组，将结果作为系列返回）或一系列列对系列进行分组。

考虑这是由以下代码生成的 DataFrame：

import pandas as pd
import numpy as np

# 创建数据框
dframe = pd.DataFrame({'Geeks': [23, 24, 22, 22, 23, 24],
						'For': [10, 12, 13, 14, 15, 16],
						'geeks': [122, 142, 112, 122, 114, 112]},
						columns = ['Geeks', 'For', 'geeks'])

# 应用 groupby 和聚合函数 max 来查找列的最大值

print(dframe.groupby(['Geeks']).max())

输出：

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Python 教程之数据分析（5）—— 使用 Python 进行数据分析和可视化 | 第 2 套

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Python 教程之数据分析（5）—— 使用 Python 进行数据分析和可视化 | 第 2 套

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品