- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【机器学习】嘿马机器学习（科学计算库）第8篇：Pandas,5.3 基本数据操作【附代码文档】

程序员一诺python 发表于 2025/09/08 16:55:52 2025/09/08

【摘要】 1.机器学习常用科学计算库包括基础定位、目标。2. 人工智能概述涵盖人工智能应用场景、人工智能小案例、人工智能发展必备三要素、人工智能机器学习和深度学习。3. 机器学习概述包括机器学习工作流程、什么是机器学习、模型评估（回归模型评估、拟合）、Azure机器学习模型搭建、完整机器学习项目流程。4. 机器学习基础环境安装与使用包括Jupyter Notebook使用（一级标题、Ju

🏆🏆🏆教程全知识点简介：1.机器学习常用科学计算库包括基础定位、目标。2. 人工智能概述涵盖人工智能应用场景、人工智能小案例、人工智能发展必备三要素、人工智能机器学习和深度学习。3. 机器学习概述包括机器学习工作流程、什么是机器学习、模型评估（回归模型评估、拟合）、Azure机器学习模型搭建、完整机器学习项目流程。4. 机器学习基础环境安装与使用包括Jupyter Notebook使用（一级标题、Jupyter Notebook中自动补全代码等相关功能拓展）。5. Matplotlib可视化涵盖Matplotlib HelloWorld（什么是Matplotlib、实现简单Matplotlib画图折线图、画出温度变化图、准备数据、创建画布、绘制折线图、显示图像、构造x轴刻度标签、修改坐标刻度显示、设置中文字体、设置正常显示符号、保存图片）、添加坐标轴刻度、添加网格显示、添加描述信息、图像保存、设置图形风格、常见图形绘制（常见图形种类意义、散点图绘制）。6. Numpy包括Numpy优势、N维数组ndarray（ndarray属性）、基本操作（生成数组方法、生成0和1数组、从现有数组生成、创建符合正态分布股某票涨跌幅数据）、数组间运算（数组与数的运算）。7. Pandas数据结构包括Series、DataFrame。8. 文件读取与存储涵盖CSV（read_csv）、HDF（read_hdf与to_hdf）、JSON（read_josn）。9. 高级处理数据离散化包括为什么要离散化、什么是数据离散化、股某票涨跌幅离散化（读取股某票数据、将股某票涨跌幅数据进行分组、股某票涨跌幅分组数据变成one_hot编码）、案例实现。

📚📚👉👉👉本站这篇博客： https://bbs.huaweicloud.com/blogs/453469 中查看

📚📚👉👉👉本站这篇博客： https://bbs.huaweicloud.com/blogs/458212 中查看

✨ 本教程项目亮点

🧠 知识体系完整：覆盖从基础原理、核心方法到高阶应用的全流程内容
💻 全技术链覆盖：完整前后端技术栈，涵盖开发必备技能
🚀 从零到实战：适合 0 基础入门到提升，循序渐进掌握核心能力
📚 丰富文档与代码示例：涵盖多种场景，可运行、可复用
🛠 工作与学习双参考：不仅适合系统化学习，更可作为日常开发中的查阅手册
🧩 模块化知识结构：按知识点分章节，便于快速定位和复习
📈 长期可用的技术积累：不止一次学习，而是能伴随工作与项目长期参考

🎯🎯🎯全教程总章节

🚀🚀🚀本篇主要内容

Pandas

学习目标

了解Numpy与Pandas的不同
说明Pandas的Series与Dataframe两种结构的区别
了解Pandas的MultiIndex与panel结构
应用Pandas实现基本数据操作
应用Pandas实现数据的合并
应用crosstab和pivot_table实现交叉表与透视表
应用groupby和聚合函数实现数据的分组与聚合
了解Pandas的plot画图功能
应用Pandas实现数据的读取和存储

5.3 基本数据操作

学习目标

目标
记忆DataFrame的形状、行列索引名称获取等基本属性
应用Series和DataFrame的索引进行切片获取
应用sort_index和sort_values实现索引和值的排序

为了更好的理解这些基本操作，将读取一个真实的股某票数据。关于文件操作，后面在介绍，这里只先用一下API

# 读取文件


data = pd.read_csv("./data/stock_day.csv")



# 删除一些列，让数据更简单些，再去做后面的操作


data = data.drop(["ma5","ma10","ma20","v_ma5","v_ma10","v_ma20"], axis=1)

1 索引操作

Numpy当中已经讲过使用索引选取序列和切片选择，pandas也支持类似的操作，也可以直接使用列名、行名

称，甚至组合使用。

1.1 直接使用行列索引(先列后行)

获取'2018-02-27'这天的'close'的结果

# 直接使用行列索引名字的方式（先列后行）


data['open']['2018-02-27']
23.53



# 不支持的操作




# 错误


data['2018-02-27']['open']


# 错误


data[:1, :2]

1.2 结合loc或者iloc使用索引

获取从'2018-02-27':'2018-02-22'，'open'的结果

# 使用loc:只能指定行列索引的名字


data.loc['2018-02-27':'2018-02-22', 'open']

2018-02-27    23.53
2018-02-26    22.80
2018-02-23    22.88
Name: open, dtype: float64



# 使用iloc可以通过索引的下标去获取




# 获取前3天数据,前5列的结果


data.iloc[:3, :5]

            open    high    close    low
2018-02-27    23.53    25.88    24.16    23.53
2018-02-26    22.80    23.78    23.53    22.80
2018-02-23    22.88    23.37    22.82    22.71

1.3 使用ix组合索引

Warning:Starting in 0.20.0, the .ix indexer is deprecated, in favor of the more strict .iloc and .loc indexers.

获取行第1天到第4天，['open', 'close', 'high', 'low']这个四个指标的结果

# 使用ix进行下表和名称组合做引


data.ix[0:4, ['open', 'close', 'high', 'low']]



# 推荐使用loc和iloc来获取的方式


data.loc[data.index[0:4], ['open', 'close', 'high', 'low']]
data.iloc[0:4, data.columns.get_indexer(['open', 'close', 'high', 'low'])]

            open    close    high    low
2018-02-27    23.53    24.16    25.88    23.53
2018-02-26    22.80    23.53    23.78    22.80
2018-02-23    22.88    22.82    23.37    22.71
2018-02-22    22.25    22.28    22.76    22.02

2 赋值操作

[Python 标准库参考]

[subprocess 文档]

对DataFrame当中的close列进行重新赋值为1

# 直接修改原来的值


data['close'] = 1


# 或者


data.close = 1

3 排序

[Python-dotenv 文档]

排序有两种形式，一种对于索引进行排序，一种对于内容进行排序

3.1 DataFrame排序

使用df.sort_values(by=, ascending=)
单个键或者多个键进行排序,
参数：
- by：指定排序参考的键
- ascending:默认升序
  - ascending=False:降序
  - ascending=True:升序

# 按照开盘价大小进行排序 , 使用ascending指定按照大小排序


data.sort_values(by="open", ascending=True).head()

# 按照多个键进行排序


data.sort_values(by=['open', 'high'])

使用df.sort_index给索引进行排序

这个股某票的日期索引原来是从大到小，现在重新排序，从小到大

# 对索引进行排序


data.sort_index()

3.2 Series排序

使用series.sort_values(ascending=True)进行排序

series排序时，只有一列，不需要参数

data['p_change'].sort_values(ascending=True).head()

2015-09-01   -10.03
2015-09-14   -10.02
2016-01-11   -10.02
2015-07-15   -10.02
2015-08-26   -10.01
Name: p_change, dtype: float64

使用series.sort_index()进行排序

与df一致

# 对索引进行排序


data['p_change'].sort_index().head()

2015-03-02    2.62
2015-03-03    1.44
2015-03-04    1.57
2015-03-05    2.02
2015-03-06    8.51
Name: p_change, dtype: float64

4 总结

1.索引【掌握】
直接索引 -- 先列后行,是需要通过索引的字符串进行获取
loc -- 先行后列,是需要通过索引的字符串进行获取
iloc -- 先行后列,是通过下标进行索引
ix -- 先行后列, 可以用上面两种方法混合进行索引
2.赋值【知道】
data[""] = **
data.=
3.排序【知道】
dataframe
- 对象.sort_values()
- 对象.sort_index()
series
- 对象.sort_values()
- 对象.sort_index()

5.4 DataFrame运算

学习目标

目标
应用add等实现数据间的加、减法运算
应用逻辑运算符号实现数据的逻辑筛选
应用isin, query实现数据的筛选
使用describe完成综合统计
使用max, min, mean, std完成统计计算
使用idxmin、idxmax完成最大值最小值的索引
使用cumsum等实现累计分析
应用apply函数实现数据的自定义处理

1 算术运算

add(other)

比如进行数学运算加上具体的一个数字

data['open'].add(1)

2018-02-27    24.53
2018-02-26    23.80
2018-02-23    23.88
2018-02-22    23.25
2018-02-14    22.49

sub(other)'

2 逻辑运算

[asyncpg 文档]

2.1 逻辑运算符号

例如筛选data["open"] > 23的日期数据
data["open"] > 23返回逻辑结果

data["open"] > 23

2018-02-27     True
2018-02-26    False
2018-02-23    False
2018-02-22    False
2018-02-14    False

# 逻辑判断的结果可以作为筛选的依据


data[data["open"] > 23].head()

完成多个逻辑判断，

data[(data["open"] > 23) & (data["open"] < 24)].head()

2.2 逻辑运算函数

query(expr)
expr:查询字符串

通过query使得刚才的过程更加方便简单

data.query("open<24 & open>23").head()

isin(values)

例如判断'open'是否为23.53和23.85

# 可以指定值进行一个判断，从而进行筛选操作


data[data["open"].isin([23.53, 23.85])]

![](https://fileserver.developer.huaweicloud.com/FileServer/getFile/communitytemp/20250908/community/383/461/571/0001696944383461571.20250908

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【机器学习】嘿马机器学习（科学计算库）第8篇：Pandas,5.3 基本数据操作【附代码文档】

✨ 本教程项目亮点

🎯🎯🎯全教程总章节

🚀🚀🚀本篇主要内容

Pandas

学习目标

5.3 基本数据操作

学习目标

1 索引操作

1.1 直接使用行列索引(先列后行)

1.2 结合loc或者iloc使用索引

1.3 使用ix组合索引

2 赋值操作

3 排序

3.1 DataFrame排序

3.2 Series排序

4 总结

5.4 DataFrame运算

学习目标

1 算术运算

2 逻辑运算

2.1 逻辑运算符号

2.2 逻辑运算函数

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

【机器学习】嘿马机器学习（科学计算库）第8篇：Pandas,5.3 基本数据操作【附代码文档】

✨ 本教程项目亮点

🎯🎯🎯全教程总章节

🚀🚀🚀本篇主要内容

Pandas

学习目标

5.3 基本数据操作

学习目标

1 索引操作

1.1 直接使用行列索引(先列后行)

1.2 结合loc或者iloc使用索引

1.3 使用ix组合索引

2 赋值操作

3 排序

3.1 DataFrame排序

3.2 Series排序

4 总结

5.4 DataFrame运算

学习目标

1 算术运算

2 逻辑运算

2.1 逻辑运算符号

2.2 逻辑运算函数

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品