python常用框架工具之pandas——华为AI学习笔记10
1. 简介
-
数据格式:包含了DataFram和Series两种高级的数据结构,帮助我们方便地处理excel文件或csv文件,使用方便,功能强大
-
日期处理,时间序列处理,结合python中Datatime模块使用
-
文件操作,非常方便地操作csv/excel/txt文件,读/写非常简单
-
数据分析,pandas为数据分析而生,集成了很多方法帮助我们处理和分析数据
2. pandas中的数据结构
2.1. Series
可以简单地看作一维数组或列表
它具有索引,它并不一定是0到n-1(一维数组和列表),它的索引可以是自定义,默认是0到n-1
创建可以调用pandas中的series类,通过数组或列表直接创建
2.2. DataFrame
可以看成有多个Series按照行合并成的数据结构
可以看成二维数据
它也有索引,它有两个索引,分别是行索引和列索引,类似常见的excel表格
它可以通过字典、数组、Series等来创建
2.2.1. DataFrame中的常用操作
2.2.1.1. 创建
pd.DataFrame(data)
2.2.1.2. 查看
df.head(n):查看开始的n条数据
df.tail(n):查看结尾的n条数据
dt.index:查看行索引
df.columns:查看列索引
df.values:查看数据
df.iloc:根据下标查看数据
df.loc:根据索引查看数据
df.ix:根据下标和索引混合查看数据
2.2.1.3. 统计量
df.describe():统计纯数值信息,包括最大值、最小值、中位数等
3. 时间序列
3.1. 时间序列的表现形式
-
时间戳:表示特定的某个时刻,一般是一个很长的数字
-
固定的时间:比如说今天下午14:30
-
时间间隔:一段时间
3.2. 时间序列的一些操作
-
索引
作为DataFrame的行索引
用df.index = 来创建时间索引
-
时间格式解析
pd.to_datetime()
平常,我们可以以/分隔时间,或以-分隔时间,或以时间戳来表示时间
pd.to_datatime()可以解释非常多的时间格式
-
时间戳
pd.date_range()可以生成时间戳
-
生成日期
pd.period_range()可生成一段时间
4. 数据处理
4.1. 缺失值处理
比如NaN,pandas提供了缺失值处理的方法,比如
删除整条数据、数据填充(中位数、平均值)
4.1.1. 空值/缺失值判断
df.isnull()
df.isna()
4.1.2. 缺失值填充
df.fillna()
等
4.1.3. 缺失值删除
df.dropna()
4.1.4. 空值和缺失值的体现
空值:""
缺失值:NaN/NaT
4.2. 统计值
pandas中提供了很多数据统计的方法,比如
均值、中位数、求和、累计、累加、累乘
4.2.1. 求和和求平均
df.sum()
df.mean()
4.2.2. 统计量
df.max()
df.min()
df.count():非NaN统计
df.median()
df.std()
4.2.3. 累计
df.cumsum()
4.2.4. 排序
df.sort_index()
df.rand()
4.2.5. 分组
df.groupby(col)
4.2.6. 其他
df.cov()
df.corrwith():相关系数
4.3. 可视化
pandas也提供了一些可视化操作
4.4. 其他操作
4.4.1. excel操作
pd.to_excel()
pd.read_excel()
需要关注编码格式,pandas默认utf-8,windons默认的是gbk
4.4.2. cse操作
pd.to_csv
pd.read_csv
4.4.3. 数据合并
df.append()
df.concat()
- 点赞
- 收藏
- 关注作者
评论(0)