DataFrame(8):DataFrame运算——逻辑运算(用于筛选数据)

举报
yd_226342373 发表于 2021/05/21 01:07:42 2021/05/21
【摘要】 1、DataFrame逻辑运算 逻辑运算符号:> >= < <= == !=复合逻辑运算符:& | ~逻辑运算函数:query()、isin()、between()逻辑运算的作用:利用逻辑运算,用于筛选数据(很重要) 2、原始数据文件链接如下 http://note.youdao.com/noteshare?id=bc204b1f1...

1、DataFrame逻辑运算

  • 逻辑运算符号:> >= < <= == !=
  • 复合逻辑运算符:& | ~
  • 逻辑运算函数:query()、isin()、between()
  • 逻辑运算的作用:利用逻辑运算,用于筛选数据(很重要)

2、原始数据文件链接如下

http://note.youdao.com/noteshare?id=bc204b1f1459da19148af2d378afff0e&sub=D4993BF4A71D45FD954C4414DD3D2A3D
读取数据:

df = pd.read_excel(r"C:\Users\黄伟\Desktop\test.xlsx")
display(df)

  
 
  • 1
  • 2

结果如下:
在这里插入图片描述

3、逻辑运算符的案例说明

1)筛选出“数学成绩大于等于60并且英语成绩大于等于70”的记录
df = pd.read_excel(r"C:\Users\黄伟\Desktop\test.xlsx")
display(df)

x = (df["数学"]>=60) & (df["英语"]>=70)
display(x)

df1 = df[(df["数学"]>=60) & (df["英语"]>=70)]
display(df1)

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

结果如下:
在这里插入图片描述

2)筛选出“语文成绩小于60或者数学成绩大于80”的记录
df = pd.read_excel(r"C:\Users\黄伟\Desktop\test.xlsx")
display(df)

x = (df["语文"]<60) | (df["数学"]>80)
display(x)

df1 = df[(df["语文"]<60) | (df["数学"]>80)]
display(df1)

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

结果如下:
在这里插入图片描述

3)筛选出“语文成绩里面的非空记录”的记录(这种方式很重要)
# 自己在原始数据中,任意删除三个值,重新读取即可
df = pd.read_excel(r"C:\Users\黄伟\Desktop\test.xlsx")
display(df)

x = df["语文"].isnull()
display(x)
y = ~df["语文"].isnull()
display(y)

df1 = df[~df["语文"].isnull()]
display(df1)

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

结果如下:
在这里插入图片描述
注意:isnull()判断某个值是否为空,如果是返回True,否则返回False。

4、逻辑运算函数:query()、isin()、between()

1)query()函数:能够简化查询代码,很好用
df = pd.read_excel(r"C:\Users\黄伟\Desktop\test.xlsx")
display(df)

df1 = df.query("语文>=60")
df1

df1 = df.query("语文>=60 & 数学>=60")
df1

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

结果如下:
在这里插入图片描述

2)isin()函数:查看df中是否某含某个值或者某些值
① isin()函数说明

  使用isin()函数,不仅可以针对整个df操作,也可以针对df中的某一列(Series)操作,但是针对Series的操作才是最常用的。

② 利用isin()判断整个df中是否包含某个值或某些值(了解)
df = pd.read_excel(r"C:\Users\黄伟\Desktop\test.xlsx")
display(df)

df.isin(["60","70"])

  
 
  • 1
  • 2
  • 3
  • 4

结果如下:
在这里插入图片描述

③ 利用isin()判断df中的某列是否包含某个值或某些值(掌握)
df = pd.read_excel(r"C:\Users\黄伟\Desktop\test.xlsx")
display(df)

df["语文"].isin(["37","97"])

df1 = df[df["语文"].isin(["37","97"])]
display(df1)

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

结果如下:
在这里插入图片描述

④ 利用isin(),利用df1中的某一列,来对df2中的数据进行过滤(很重要)
df1 = pd.read_excel(r"C:\Users\黄伟\Desktop\test.xlsx",sheet_name=0)
display(df1)

df2 = pd.read_excel(r"C:\Users\黄伟\Desktop\test.xlsx",sheet_name=1)
display(df2)

x = df1["name"].isin(df2["name"])
display(x)

df1[df1["name"].isin(df2["name"])]

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

结果如下:
在这里插入图片描述

3)between()函数:返回一个布尔值,即如果在该范围内,返回True,否则返回False。
df = pd.read_excel(r"C:\Users\黄伟\Desktop\test.xlsx",sheet_name=0)
display(df)

df["数学"].between(50,70)
df[df["数学"].between(50,70)]

  
 
  • 1
  • 2
  • 3
  • 4
  • 5

结果如下:
在这里插入图片描述
注意:此函数范围是左闭右闭区间。

文章来源: blog.csdn.net,作者:数据分析与统计学之美,版权归原作者所有,如需转载,请联系作者。

原文链接:blog.csdn.net/weixin_41261833/article/details/104216384

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。