- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【机器学习】嘿马机器学习（科学计算库）第8篇：Pandas,学习目标【附代码文档】

程序员一诺python 发表于 2024/09/04 20:43:04 2024/09/04

【摘要】本教程的知识点为：机器学习（常用科学计算库的使用）基础定位机器学习概述机器学习概述 1.5 机器学习算法分类 1 监督学习机器学习概述 1.7 Azure机器学习模型搭建实验 Azure平台简介 Matplotlib 3.2 基础绘图功能 — 以折线图为例 1 完善原始折线图 — 给图形添加辅助功能 Matplotlib 3.3 常见图形绘制 1 常见图

本教程的知识点为：机器学习（常用科学计算库的使用）基础定位机器学习概述机器学习概述 1.5 机器学习算法分类 1 监督学习机器学习概述 1.7 Azure机器学习模型搭建实验 Azure平台简介 Matplotlib 3.2 基础绘图功能 — 以折线图为例 1 完善原始折线图 — 给图形添加辅助功能 Matplotlib 3.3 常见图形绘制 1 常见图形种类及意义 Numpy 4.2 N维数组-ndarray 1 ndarray的属性 Numpy 4.4 ndarray运算问题 Pandas 5.1Pandas介绍 1 Pandas介绍 Pandas 5.3 基本数据操作 1 索引操作 Pandas 5.6 文件读取与存储 1 CSV Pandas 5.8 高级处理-数据离散化 1 为什么要离散化 Pandas 5.12 案例 1 需求

完整笔记资料代码：https://gitee.com/yinuo112/AI/tree/master/机器学习/嘿马机器学习（科学计算库）/note.md

感兴趣的小伙伴可以自取哦~

全套教程部分目录：

部分文件图片：

Pandas

学习目标

了解Numpy与Pandas的不同
说明Pandas的Series与Dataframe两种结构的区别
了解Pandas的MultiIndex与panel结构
应用Pandas实现基本数据操作
应用Pandas实现数据的合并
应用crosstab和pivot_table实现交叉表与透视表
应用groupby和聚合函数实现数据的分组与聚合
了解Pandas的plot画图功能
应用Pandas实现数据的读取和存储

5.1Pandas介绍

学习目标

目标
了解什么是pandas
了解Numpy与Pandas的不同
知道使用pandas的优势

1 Pandas介绍

2008年WesMcKinney开发出的库
专门用于数据挖掘的开源python库
以Numpy为基础，借力Numpy模块在计算方面性能高的优势
基于matplotlib，能够简便的画图
独特的数据结构

2 为什么使用Pandas

Numpy已经能够帮助我们处理数据，能够结合matplotlib解决部分数据展示等问题，那么pandas学习的目的在什么地方呢？

增强图表可读性
回忆我们在numpy当中创建学生成绩表样式：
返回结果：

array([[92, 55, 78, 50, 50],
          [71, 76, 50, 48, 96],
          [45, 84, 78, 51, 68],
          [81, 91, 56, 54, 76],
          [86, 66, 77, 67, 95],
          [46, 86, 56, 61, 99],
          [46, 95, 44, 46, 56],
          [80, 50, 45, 65, 57],
          [41, 93, 90, 41, 97],
          [65, 83, 57, 57, 40]])

如果数据展示为这样，可读性就会更友好：

便捷的数据处理能力

读取文件方便
封装了Matplotlib、Numpy的画图和计算

3 小结

pandas的优势【了解】
增强图表可读性
便捷的数据处理能力
读取文件方便
封装了Matplotlib、Numpy的画图和计算

5.2 Pandas数据结构

学习目标

目标
知道Pandas的Series结构
掌握Pandas的Dataframe结构
了解Pandas的MultiIndex与panel结构

Pandas中一共有三种数据结构，分别为：Series、DataFrame和MultiIndex（老版本中叫Panel ）。

其中Series是一维数据结构，DataFrame是二维的表格型数据结构，MultiIndex是三维的数据结构。

1.Series

Series是一个类似于一维数组的数据结构，它能够保存任何类型的数据，比如整数、字符串、浮点数等，主要由一组数据和与之相关的索引两部分构成。

1.1 Series的创建

# 导入pandas


import pandas as pd

pd.Series(data=None, index=None, dtype=None)

参数：
data：传入的数据，可以是ndarray、list等
index：索引，必须是唯一的，且与数据的长度相等。如果没有传入索引参数，则默认会自动创建一个从0-N的整数索引。
dtype：数据的类型

通过已有数据创建

指定内容，默认索引

pd.Series(np.arange(10))

# 运行结果


0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

指定索引

pd.Series([6.7,5.6,3,10,2], index=[1,2,3,4,5])

# 运行结果


1     6.7
2     5.6
3     3.0
4    10.0
5     2.0
dtype: float64

通过字典数据创建

color_count = pd.Series({'red':100, 'blue':200, 'green': 500, 'yellow':1000})
color_count

# 运行结果


blue       200
green      500
red        100
yellow    1000
dtype: int64

1.2 Series的属性

为了更方便地操作Series对象中的索引和数据，Series中提供了两个属性index和values

index

color_count.index



# 结果


Index(['blue', 'green', 'red', 'yellow'], dtype='object')

values

color_count.values



# 结果


array([ 200,  500,  100, 1000])

也可以使用索引来获取数据：

color_count[2]



# 结果


100

2.DataFrame

DataFrame是一个类似于二维数组或表格(如excel)的对象，既有行索引，又有列索引

行索引，表明不同行，横向索引，叫index，0轴，axis=0
列索引，表名不同列，纵向索引，叫columns，1轴，axis=1

2.1 DataFrame的创建

# 导入pandas


import pandas as pd

pd.DataFrame(data=None, index=None, columns=None)

参数：
index：行标签。如果没有传入索引参数，则默认会自动创建一个从0-N的整数索引。
columns：列标签。如果没有传入索引参数，则默认会自动创建一个从0-N的整数索引。
通过已有数据创建

举例一：

pd.DataFrame(np.random.randn(2,3))

回忆咱们在前面直接使用np创建的数组显示方式，比较两者的区别。

举例二：创建学生成绩表

# 生成10名同学，5门功课的数据


score = np.random.randint(40, 100, (10, 5))



# 结果


array([[92, 55, 78, 50, 50],
       [71, 76, 50, 48, 96],
       [45, 84, 78, 51, 68],
       [81, 91, 56, 54, 76],
       [86, 66, 77, 67, 95],
       [46, 86, 56, 61, 99],
       [46, 95, 44, 46, 56],
       [80, 50, 45, 65, 57],
       [41, 93, 90, 41, 97],
       [65, 83, 57, 57, 40]])

但是这样的数据形式很难看到存储的是什么的样的数据，可读性比较差！！

问题：如何让数据更有意义的显示？

# 使用Pandas中的数据结构


score_df = pd.DataFrame(score)

给分数数据增加行列索引,显示效果更佳

效果：

增加行、列索引

# 构造行索引序列


subjects = ["语文", "数学", "英语", "政治", "体育"]



# 构造列索引序列


stu = ['同学' + str(i) for i in range(score_df.shape[0])]



# 添加行索引


data = pd.DataFrame(score, columns=subjects, index=stu)

2.2 DataFrame的属性

shape

data.shape



# 结果


(10, 5)

index

DataFrame的行索引列表

data.index



# 结果


Index(['同学0', '同学1', '同学2', '同学3', '同学4', '同学5', '同学6', '同学7', '同学8', '同学9'], dtype='object')

columns

DataFrame的列索引列表

data.columns



# 结果


Index(['语文', '数学', '英语', '政治', '体育'], dtype='object')

values

直接获取其中array的值

data.values

array([[92, 55, 78, 50, 50],
       [71, 76, 50, 48, 96],
       [45, 84, 78, 51, 68],
       [81, 91, 56, 54, 76],
       [86, 66, 77, 67, 95],
       [46, 86, 56, 61, 99],
       [46, 95, 44, 46, 56],
       [80, 50, 45, 65, 57],
       [41, 93, 90, 41, 97],
       [65, 83, 57, 57, 40]])

转置

data.T

结果

head(5)：显示前5行内容

如果不补充参数，默认5行。填入参数N则显示前N行

data.head(5)

tail(5):显示后5行内容

如果不补充参数，默认5行。填入参数N则显示后N行

data.tail(5)

2.3 DatatFrame索引的设置

需求：

2.3.1 修改行列索引值

stu = ["学生_" + str(i) for i in range(score_df.shape[0])]



# 必须整体全部修改


data.index = stu

注意：以下修改方式是错误的

# 错误修改方式


data.index[3] = '学生_3'

2.3.2 重设索引

reset_index(drop=False)
设置新的下标索引
drop:默认为False，不删除原来索引，如果为True,删除原来的索引值

# 重置索引,drop=False


data.reset_index()

# 重置索引,drop=True


data.reset_index(drop=True)

2.3.3 以某列值设置为新的索引

set_index(keys, drop=True)
keys : 列索引名成或者列索引名称的列表
drop : boolean, default True.当做新的索引，删除原来的列

设置新索引案例

1、创建

df = pd.DataFrame({'month': [1, 4, 7, 10],
                    'year': [2012, 2014, 2013, 2014],
                    'sale':[55, 40, 84, 31]})

   month  sale  year
0  1      55    2012
1  4      40    2014
2  7      84    2013
3  10     31    2014

2、以月份设置新的索引

df.set_index('month')
       sale  year
month
1      55    2012
4      40    2014
7      84    2013
10     31    2014

3、设置多个索引，以年和月份

df = df.set_index(['year', 'month'])
df
            sale
year  month
2012  1     55
2014  4     40
2013  7     84
2014  10    31

注：通过刚才的设置，这样DataFrame就变成了一个具有MultiIndex的DataFrame。

3.MultiIndex与Panel

3.1 MultiIndex

MultiIndex是三维的数据结构;

多级索引（也称层次化索引）是pandas的重要功能，可以在Series、DataFrame对象上拥有2个以及2个以上的索引。

3.1.1 multiIndex的特性

打印刚才的df的行索引结果

df.index

MultiIndex(levels=[[2012, 2013, 2014], [1, 4, 7, 10]],
           labels=[[0, 2, 1, 2], [0, 1, 2, 3]],
           names=['year', 'month'])

多级或分层索引对象。

index属性
names:levels的名称
levels：每个level的元组值

df.index.names


# FrozenList(['year', 'month'])



df.index.levels


# FrozenList([[1, 2], [1, 4, 7, 10]])

3.1.2 multiIndex的创建

arrays = [[1, 1, 2, 2], ['red', 'blue', 'red', 'blue']]
pd.MultiIndex.from_arrays(arrays, names=('number', 'color'))



# 结果


MultiIndex(levels=[[1, 2], ['blue', 'red']],
           codes=[[0, 0, 1, 1], [1, 0, 1, 0]],
           names=['number', 'color'])

3.2 Panel

3.2.1 panel的创建

class pandas.Panel(*da

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【机器学习】嘿马机器学习（科学计算库）第8篇：Pandas,学习目标【附代码文档】

完整笔记资料代码：https://gitee.com/yinuo112/AI/tree/master/机器学习/嘿马机器学习（科学计算库）/note.md

感兴趣的小伙伴可以自取哦~

全套教程部分目录：

部分文件图片：

Pandas

学习目标

5.1Pandas介绍

学习目标

1 Pandas介绍

2 为什么使用Pandas

3 小结

5.2 Pandas数据结构

学习目标

1.Series

1.1 Series的创建

1.2 Series的属性

2.DataFrame

2.1 DataFrame的创建

2.2 DataFrame的属性

2.3 DatatFrame索引的设置

2.3.1 修改行列索引值

2.3.2 重设索引

2.3.3 以某列值设置为新的索引

3.MultiIndex与Panel

3.1 MultiIndex

3.1.1 multiIndex的特性

3.1.2 multiIndex的创建

3.2 Panel

3.2.1 panel的创建

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品