python常用框架工具之pandas——华为AI学习笔记10

举报
darkpard 发表于 2022/02/11 19:05:39 2022/02/11
【摘要】 1. 简介数据格式:包含了DataFram和Series两种高级的数据结构,帮助我们方便地处理excel文件或csv文件,使用方便,功能强大日期处理,时间序列处理,结合python中Datatime模块使用文件操作,非常方便地操作csv/excel/txt文件,读/写非常简单数据分析,pandas为数据分析而生,集成了很多方法帮助我们处理和分析数据2. pandas中的数据结构2.1. Se...

1. 简介

  1. 数据格式:包含了DataFram和Series两种高级的数据结构,帮助我们方便地处理excel文件或csv文件,使用方便,功能强大

  2. 日期处理,时间序列处理,结合python中Datatime模块使用

  3. 文件操作,非常方便地操作csv/excel/txt文件,读/写非常简单

  4. 数据分析,pandas为数据分析而生,集成了很多方法帮助我们处理和分析数据

2. pandas中的数据结构

2.1. Series

可以简单地看作一维数组或列表

它具有索引,它并不一定是0到n-1(一维数组和列表),它的索引可以是自定义,默认是0到n-1

创建可以调用pandas中的series类,通过数组或列表直接创建

2.2. DataFrame

可以看成有多个Series按照行合并成的数据结构

可以看成二维数据

它也有索引,它有两个索引,分别是行索引和列索引,类似常见的excel表格

它可以通过字典、数组、Series等来创建

2.2.1. DataFrame中的常用操作

2.2.1.1. 创建

pd.DataFrame(data)

2.2.1.2. 查看

df.head(n):查看开始的n条数据

df.tail(n):查看结尾的n条数据

dt.index:查看行索引

df.columns:查看列索引

df.values:查看数据

df.iloc:根据下标查看数据

df.loc:根据索引查看数据

df.ix:根据下标和索引混合查看数据

2.2.1.3. 统计量

df.describe():统计纯数值信息,包括最大值、最小值、中位数等

3. 时间序列

3.1. 时间序列的表现形式

  1. 时间戳:表示特定的某个时刻,一般是一个很长的数字

  2. 固定的时间:比如说今天下午14:30

  3. 时间间隔:一段时间

3.2. 时间序列的一些操作

  1. 索引

作为DataFrame的行索引

用df.index = 来创建时间索引

  1. 时间格式解析

pd.to_datetime()

平常,我们可以以/分隔时间,或以-分隔时间,或以时间戳来表示时间

pd.to_datatime()可以解释非常多的时间格式

  1. 时间戳

pd.date_range()可以生成时间戳

  1. 生成日期

pd.period_range()可生成一段时间

4. 数据处理

4.1. 缺失值处理

比如NaN,pandas提供了缺失值处理的方法,比如

删除整条数据、数据填充(中位数、平均值)

4.1.1. 空值/缺失值判断

df.isnull()

df.isna()

4.1.2. 缺失值填充

df.fillna()

4.1.3. 缺失值删除

df.dropna()

4.1.4. 空值和缺失值的体现

空值:""

缺失值:NaN/NaT

4.2. 统计值

pandas中提供了很多数据统计的方法,比如

均值、中位数、求和、累计、累加、累乘

4.2.1. 求和和求平均

df.sum()

df.mean()

4.2.2. 统计量

df.max()

df.min()

df.count():非NaN统计

df.median()

df.std()

4.2.3. 累计

df.cumsum()

4.2.4. 排序

df.sort_index()

df.rand()

4.2.5. 分组

df.groupby(col)

4.2.6. 其他

df.cov()

df.corrwith():相关系数

4.3. 可视化

pandas也提供了一些可视化操作

4.4. 其他操作

4.4.1. excel操作

pd.to_excel()

pd.read_excel()

需要关注编码格式,pandas默认utf-8,windons默认的是gbk

4.4.2. cse操作

pd.to_csv

pd.read_csv

4.4.3. 数据合并

df.append()

df.concat()

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。