【机器学习】嘿马机器学习(科学计算库)第8篇:Pandas,5.3 基本数据操作【附代码文档】

举报
程序员一诺python 发表于 2025/09/08 16:55:52 2025/09/08
【摘要】 1.机器学习常用科学计算库包括基础定位、目标。2. 人工智能概述涵盖人工智能应用场景、人工智能小案例、人工智能发展必备三要素、人工智能机器学习和深度学习。3. 机器学习概述包括机器学习工作流程、什么是机器学习、模型评估(回归模型评估、拟合)、Azure机器学习模型搭建、完整机器学习项目流程。4. 机器学习基础环境安装与使用包括Jupyter Notebook使用(一级标题、Ju

🏆🏆🏆教程全知识点简介:1.机器学习常用科学计算库包括基础定位、目标。2. 人工智能概述涵盖人工智能应用场景、人工智能小案例、人工智能发展必备三要素、人工智能机器学习和深度学习。3. 机器学习概述包括机器学习工作流程、什么是机器学习、模型评估(回归模型评估、拟合)、Azure机器学习模型搭建、完整机器学习项目流程。4. 机器学习基础环境安装与使用包括Jupyter Notebook使用(一级标题、Jupyter Notebook中自动补全代码等相关功能拓展)。5. Matplotlib可视化涵盖Matplotlib HelloWorld(什么是Matplotlib、实现简单Matplotlib画图折线图、画出温度变化图、准备数据、创建画布、绘制折线图、显示图像、构造x轴刻度标签、修改坐标刻度显示、设置中文字体、设置正常显示符号、保存图片)、添加坐标轴刻度、添加网格显示、添加描述信息、图像保存、设置图形风格、常见图形绘制(常见图形种类意义、散点图绘制)。6. Numpy包括Numpy优势、N维数组ndarray(ndarray属性)、基本操作(生成数组方法、生成0和1数组、从现有数组生成、创建符合正态分布股某票涨跌幅数据)、数组间运算(数组与数的运算)。7. Pandas数据结构包括Series、DataFrame。8. 文件读取与存储涵盖CSV(read_csv)、HDF(read_hdf与to_hdf)、JSON(read_josn)。9. 高级处理数据离散化包括为什么要离散化、什么是数据离散化、股某票涨跌幅离散化(读取股某票数据、将股某票涨跌幅数据进行分组、股某票涨跌幅分组数据变成one_hot编码)、案例实现。


📚📚👉👉👉本站这篇博客:   https://bbs.huaweicloud.com/blogs/453469    中查看

📚📚👉👉👉本站这篇博客:   https://bbs.huaweicloud.com/blogs/453469    中查看

📚📚👉👉👉本站这篇博客:   https://bbs.huaweicloud.com/blogs/458212    中查看

✨ 本教程项目亮点

🧠 知识体系完整:覆盖从基础原理、核心方法到高阶应用的全流程内容
💻 全技术链覆盖:完整前后端技术栈,涵盖开发必备技能
🚀 从零到实战:适合 0 基础入门到提升,循序渐进掌握核心能力
📚 丰富文档与代码示例:涵盖多种场景,可运行、可复用
🛠 工作与学习双参考:不仅适合系统化学习,更可作为日常开发中的查阅手册
🧩 模块化知识结构:按知识点分章节,便于快速定位和复习
📈 长期可用的技术积累:不止一次学习,而是能伴随工作与项目长期参考


🎯🎯🎯全教程总章节


🚀🚀🚀本篇主要内容

Pandas

学习目标

  • 了解Numpy与Pandas的不同
  • 说明Pandas的Series与Dataframe两种结构的区别
  • 了解Pandas的MultiIndex与panel结构
  • 应用Pandas实现基本数据操作
  • 应用Pandas实现数据的合并
  • 应用crosstab和pivot_table实现交叉表与透视表
  • 应用groupby和聚合函数实现数据的分组与聚合
  • 了解Pandas的plot画图功能
  • 应用Pandas实现数据的读取和存储

5.3 基本数据操作

学习目标

  • 目标

  • 记忆DataFrame的形状、行列索引名称获取等基本属性

  • 应用Series和DataFrame的索引进行切片获取
  • 应用sort_index和sort_values实现索引和值的排序

为了更好的理解这些基本操作, 将读取一个真实的股某票数据。关于文件操作,后面在介绍,这里只先用一下API

# 读取文件


data = pd.read_csv("./data/stock_day.csv")



# 删除一些列,让数据更简单些,再去做后面的操作


data = data.drop(["ma5","ma10","ma20","v_ma5","v_ma10","v_ma20"], axis=1)

1 索引操作

Numpy当中 已经讲过使用索引选取序列和切片选择,pandas也支持类似的操作,也可以直接使用列名、行名

称,甚至组合使用。

1.1 直接使用行列索引(先列后行)

获取'2018-02-27'这天的'close'的结果

# 直接使用行列索引名字的方式(先列后行)


data['open']['2018-02-27']
23.53



# 不支持的操作




# 错误


data['2018-02-27']['open']


# 错误


data[:1, :2]

1.2 结合loc或者iloc使用索引

获取从'2018-02-27':'2018-02-22','open'的结果

# 使用loc:只能指定行列索引的名字


data.loc['2018-02-27':'2018-02-22', 'open']

2018-02-27    23.53
2018-02-26    22.80
2018-02-23    22.88
Name: open, dtype: float64



# 使用iloc可以通过索引的下标去获取




# 获取前3天数据,前5列的结果


data.iloc[:3, :5]

            open    high    close    low
2018-02-27    23.53    25.88    24.16    23.53
2018-02-26    22.80    23.78    23.53    22.80
2018-02-23    22.88    23.37    22.82    22.71

1.3 使用ix组合索引

Warning:Starting in 0.20.0, the .ix indexer is deprecated, in favor of the more strict .iloc and .loc indexers.

获取行第1天到第4天,['open', 'close', 'high', 'low']这个四个指标的结果

# 使用ix进行下表和名称组合做引


data.ix[0:4, ['open', 'close', 'high', 'low']]



# 推荐使用loc和iloc来获取的方式


data.loc[data.index[0:4], ['open', 'close', 'high', 'low']]
data.iloc[0:4, data.columns.get_indexer(['open', 'close', 'high', 'low'])]

            open    close    high    low
2018-02-27    23.53    24.16    25.88    23.53
2018-02-26    22.80    23.53    23.78    22.80
2018-02-23    22.88    22.82    23.37    22.71
2018-02-22    22.25    22.28    22.76    22.02

2 赋值操作

[Python 标准库参考]

[subprocess 文档]

对DataFrame当中的close列进行重新赋值为1

# 直接修改原来的值


data['close'] = 1


# 或者


data.close = 1

3 排序

[Python-dotenv 文档]

排序有两种形式,一种对于索引进行排序,一种对于内容进行排序

3.1 DataFrame排序

  • 使用df.sort_values(by=, ascending=)

  • 单个键或者多个键进行排序,

  • 参数:

    • by:指定排序参考的键
    • ascending:默认升序

      • ascending=False:降序
      • ascending=True:升序
# 按照开盘价大小进行排序 , 使用ascending指定按照大小排序


data.sort_values(by="open", ascending=True).head()

# 按照多个键进行排序


data.sort_values(by=['open', 'high'])

  • 使用df.sort_index给索引进行排序

这个股某票的日期索引原来是从大到小,现在重新排序,从小到大

# 对索引进行排序


data.sort_index()

3.2 Series排序

  • 使用series.sort_values(ascending=True)进行排序

series排序时,只有一列,不需要参数

data['p_change'].sort_values(ascending=True).head()

2015-09-01   -10.03
2015-09-14   -10.02
2016-01-11   -10.02
2015-07-15   -10.02
2015-08-26   -10.01
Name: p_change, dtype: float64
  • 使用series.sort_index()进行排序

与df一致

# 对索引进行排序


data['p_change'].sort_index().head()

2015-03-02    2.62
2015-03-03    1.44
2015-03-04    1.57
2015-03-05    2.02
2015-03-06    8.51
Name: p_change, dtype: float64

4 总结

  • 1.索引【掌握】

  • 直接索引 -- 先列后行,是需要通过索引的字符串进行获取

  • loc -- 先行后列,是需要通过索引的字符串进行获取
  • iloc -- 先行后列,是通过下标进行索引
  • ix -- 先行后列, 可以用上面两种方法混合进行索引

  • 2.赋值【知道】

  • data[""] = **

  • data.=

  • 3.排序【知道】

  • dataframe

    • 对象.sort_values()
    • 对象.sort_index()
  • series

    • 对象.sort_values()
    • 对象.sort_index()

5.4 DataFrame运算

学习目标

  • 目标

  • 应用add等实现数据间的加、减法运算

  • 应用逻辑运算符号实现数据的逻辑筛选
  • 应用isin, query实现数据的筛选
  • 使用describe完成综合统计
  • 使用max, min, mean, std完成统计计算
  • 使用idxmin、idxmax完成最大值最小值的索引
  • 使用cumsum等实现累计分析
  • 应用apply函数实现数据的自定义处理

1 算术运算

  • add(other)

比如进行数学运算加上具体的一个数字

data['open'].add(1)

2018-02-27    24.53
2018-02-26    23.80
2018-02-23    23.88
2018-02-22    23.25
2018-02-14    22.49
  • sub(other)'

2 逻辑运算

[asyncpg 文档]

2.1 逻辑运算符号

  • 例如筛选data["open"] > 23的日期数据

  • data["open"] > 23返回逻辑结果

data["open"] > 23

2018-02-27     True
2018-02-26    False
2018-02-23    False
2018-02-22    False
2018-02-14    False
# 逻辑判断的结果可以作为筛选的依据


data[data["open"] > 23].head()

  • 完成多个逻辑判断,
data[(data["open"] > 23) & (data["open"] < 24)].head()

2.2 逻辑运算函数

  • query(expr)

  • expr:查询字符串

通过query使得刚才的过程更加方便简单

data.query("open<24 & open>23").head()
  • isin(values)

例如判断'open'是否为23.53和23.85

# 可以指定值进行一个判断,从而进行筛选操作


data[data["open"].isin([23.53, 23.85])]

![](https://fileserver.developer.huaweicloud.com/FileServer/getFile/communitytemp/20250908/community/383/461/571/0001696944383461571.20250908

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。