- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【机器学习】嘿马机器学习（科学计算库）第7篇：Pandas,5.1Pandas介绍【附代码文档】

程序员一诺python 发表于 2025/09/04 13:04:26 2025/09/04

【摘要】 1.机器学习常用科学计算库包括基础定位、目标。2. 人工智能概述涵盖人工智能应用场景、人工智能小案例、人工智能发展必备三要素、人工智能机器学习和深度学习。3. 机器学习概述包括机器学习工作流程、什么是机器学习、模型评估（回归模型评估、拟合）、Azure机器学习模型搭建、完整机器学习项目流程。4. 机器学习基础环境安装与使用包括Jupyter Notebook使用（一级标题、Ju

🏆🏆🏆教程全知识点简介：1.机器学习常用科学计算库包括基础定位、目标。2. 人工智能概述涵盖人工智能应用场景、人工智能小案例、人工智能发展必备三要素、人工智能机器学习和深度学习。3. 机器学习概述包括机器学习工作流程、什么是机器学习、模型评估（回归模型评估、拟合）、Azure机器学习模型搭建、完整机器学习项目流程。4. 机器学习基础环境安装与使用包括Jupyter Notebook使用（一级标题、Jupyter Notebook中自动补全代码等相关功能拓展）。5. Matplotlib可视化涵盖Matplotlib HelloWorld（什么是Matplotlib、实现简单Matplotlib画图折线图、画出温度变化图、准备数据、创建画布、绘制折线图、显示图像、构造x轴刻度标签、修改坐标刻度显示、设置中文字体、设置正常显示符号、保存图片）、添加坐标轴刻度、添加网格显示、添加描述信息、图像保存、设置图形风格、常见图形绘制（常见图形种类意义、散点图绘制）。6. Numpy包括Numpy优势、N维数组ndarray（ndarray属性）、基本操作（生成数组方法、生成0和1数组、从现有数组生成、创建符合正态分布股某票涨跌幅数据）、数组间运算（数组与数的运算）。7. Pandas数据结构包括Series、DataFrame。8. 文件读取与存储涵盖CSV（read_csv）、HDF（read_hdf与to_hdf）、JSON（read_josn）。9. 高级处理数据离散化包括为什么要离散化、什么是数据离散化、股某票涨跌幅离散化（读取股某票数据、将股某票涨跌幅数据进行分组、股某票涨跌幅分组数据变成one_hot编码）、案例实现。

📚📚👉👉👉本站这篇博客： https://bbs.huaweicloud.com/blogs/455841 中查看

✨ 本教程项目亮点

🧠 知识体系完整：覆盖从基础原理、核心方法到高阶应用的全流程内容
💻 全技术链覆盖：完整前后端技术栈，涵盖开发必备技能
🚀 从零到实战：适合 0 基础入门到提升，循序渐进掌握核心能力
📚 丰富文档与代码示例：涵盖多种场景，可运行、可复用
🛠 工作与学习双参考：不仅适合系统化学习，更可作为日常开发中的查阅手册
🧩 模块化知识结构：按知识点分章节，便于快速定位和复习
📈 长期可用的技术积累：不止一次学习，而是能伴随工作与项目长期参考

🎯🎯🎯全教程总章节

🚀🚀🚀本篇主要内容

Pandas

学习目标

了解Numpy与Pandas的不同
说明Pandas的Series与Dataframe两种结构的区别
了解Pandas的MultiIndex与panel结构
应用Pandas实现基本数据操作
应用Pandas实现数据的合并
应用crosstab和pivot_table实现交叉表与透视表
应用groupby和聚合函数实现数据的分组与聚合
了解Pandas的plot画图功能
应用Pandas实现数据的读取和存储

5.1Pandas介绍

学习目标

目标
了解什么是pandas
了解Numpy与Pandas的不同
知道使用pandas的优势

1 Pandas介绍

2008年WesMcKinney开发出的库
专门用于数据挖掘的开源python库
以Numpy为基础，借力Numpy模块在计算方面性能高的优势
基于matplotlib，能够简便的画图
独特的数据结构

2 为什么使用Pandas

Numpy已经能够帮助处理数据，能够结合matplotlib解决部分数据展示等问题，那么pandas学习的目的在什么地方呢？

增强图表可读性
回忆在numpy当中创建学生成绩表样式：
返回结果：

array([[92, 55, 78, 50, 50],
          [71, 76, 50, 48, 96],
          [45, 84, 78, 51, 68],
          [81, 91, 56, 54, 76],
          [86, 66, 77, 67, 95],
          [46, 86, 56, 61, 99],
          [46, 95, 44, 46, 56],
          [80, 50, 45, 65, 57],
          [41, 93, 90, 41, 97],
          [65, 83, 57, 57, 40]])

如果数据展示为这样，可读性就会更友好：

便捷的数据处理能力

读取文件方便
封装了Matplotlib、Numpy的画图和计算

3 小结

pandas的优势【了解】
增强图表可读性
便捷的数据处理能力
读取文件方便
封装了Matplotlib、Numpy的画图和计算

5.2 Pandas数据结构

学习目标

目标
知道Pandas的Series结构
掌握Pandas的Dataframe结构
了解Pandas的MultiIndex与panel结构

Pandas中一共有三种数据结构，分别为：Series、DataFrame和MultiIndex（老版本中叫Panel ）。

其中Series是一维数据结构，DataFrame是二维的表格型数据结构，MultiIndex是三维的数据结构。

[threading 文档]

1.Series

Series是一个类似于一维数组的数据结构，它能够保存任何类型的数据，比如整数、字符串、浮点数等，主要由一组数据和与之相关的索引两部分构成。

图片无法加载

1.1 Series的创建

# 导入pandas


import pandas as pd

pd.Series(data=None, index=None, dtype=None)

参数：
data：传入的数据，可以是ndarray、list等
index：索引，必须是唯一的，且与数据的长度相等。如果没有传入索引参数，则默认会自动创建一个从0-N的整数索引。
dtype：数据的类型

通过已有数据创建

指定内容，默认索引

pd.Series(np.arange(10))

# 运行结果


0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

[Selenium Python 文档]

[jsonschema 文档]

指定索引

pd.Series([6.7,5.6,3,10,2], index=[1,2,3,4,5])

# 运行结果


1     6.7
2     5.6
3     3.0
4    10.0
5     2.0
dtype: float64

通过字典数据创建

color_count = pd.Series({'red':100, 'blue':200, 'green': 500, 'yellow':1000})
color_count

# 运行结果


blue       200
green      500
red        100
yellow    1000
dtype: int64

1.2 Series的属性

为了更方便地操作Series对象中的索引和数据，Series中提供了两个属性index和values

index

color_count.index



# 结果


Index(['blue', 'green', 'red', 'yellow'], dtype='object')

values

color_count.values



# 结果


array([ 200,  500,  100, 1000])

也可以使用索引来获取数据：

color_count[2]



# 结果


100

2.DataFrame

DataFrame是一个类似于二维数组或表格(如excel)的对象，既有行索引，又有列索引

行索引，表明不同行，横向索引，叫index，0轴，axis=0
列索引，表名不同列，纵向索引，叫columns，1轴，axis=1

2.1 DataFrame的创建

# 导入pandas


import pandas as pd

pd.DataFrame(data=None, index=None, columns=None)

参数：
index：行标签。如果没有传入索引参数，则默认会自动创建一个从0-N的整数索引。
columns：列标签。如果没有传入索引参数，则默认会自动创建一个从0-N的整数索引。
通过已有数据创建

举例一：

pd.DataFrame(np.random.randn(2,3))

回忆咱们在前面直接使用np创建的数组显示方式，比较两者的区别。

举例二：创建学生成绩表

# 生成10名同学，5门功课的数据


score = np.random.randint(40, 100, (10, 5))



# 结果


array([[92, 55, 78, 50, 50],
       [71, 76, 50, 48, 96],
       [45, 84, 78, 51, 68],
       [81, 91, 56, 54, 76],
       [86, 66, 77, 67, 95],
       [46, 86, 56, 61, 99],
       [46, 95, 44, 46, 56],
       [80, 50, 45, 65, 57],
       [41, 93, 90, 41, 97],
       [65, 83, 57, 57, 40]])

但是这样的数据形式很难看到存储的是什么的样的数据，可读性比较差！！

问题：如何让数据更有意义的显示？

# 使用Pandas中的数据结构


score_df = pd.DataFrame(score)

给分数数据增加行列索引,显示效果更佳

效果：

增加行、列索引

# 构造行索引序列


subjects = ["语文", "数学", "英语", "政治", "体育"]



# 构造列索引序列


stu = ['同学' + str(i) for i in range(score_df.shape[0])]



# 添加行索引


data = pd.DataFrame(score, columns=subjects, index=stu)

2.2 DataFrame的属性

shape

data.shape



# 结果


(10, 5)

index

DataFrame的行索引列表

data.index



# 结果


Index(['同学0', '同学1', '同学2', '同学3', '同学4', '同学5', '同学6', '同学7', '同学8', '同学9'], dtype='object')

[colorama 文档]

columns

DataFrame的列索引列表

data.columns



# 结果


Index(['语文', '数学', '英语', '政治', '体育'], dtype='object')

values

直接获取其中array的值 ```python data.values

array([[92, 55, 78, 50, 50], [71, 76, 50, 48, 96], [45, 84, 78, 51, 68], [81, 91, 56, 54, 76], [86, 66, 77, 67, 95], [46, 86, 56, 61, 99], [46, 95, 44, 46, 56], [80, 50, 45, 65, 57], [41, 93, 90, 41, 97], [65

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【机器学习】嘿马机器学习（科学计算库）第7篇：Pandas,5.1Pandas介绍【附代码文档】

✨ 本教程项目亮点

🎯🎯🎯全教程总章节

🚀🚀🚀本篇主要内容

Pandas

学习目标

5.1Pandas介绍

学习目标

1 Pandas介绍

2 为什么使用Pandas

3 小结

5.2 Pandas数据结构

学习目标

1.Series

1.1 Series的创建

1.2 Series的属性

2.DataFrame

2.1 DataFrame的创建

2.2 DataFrame的属性

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

【机器学习】嘿马机器学习（科学计算库）第7篇：Pandas,5.1Pandas介绍【附代码文档】

✨ 本教程项目亮点

🎯🎯🎯全教程总章节

🚀🚀🚀本篇主要内容

Pandas

学习目标

5.1Pandas介绍

学习目标

1 Pandas介绍

2 为什么使用Pandas

3 小结

5.2 Pandas数据结构

学习目标

1.Series

1.1 Series的创建

1.2 Series的属性

2.DataFrame

2.1 DataFrame的创建

2.2 DataFrame的属性

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品