python-pandas之Index数据分析(六)

举报
brucexiaogui 发表于 2021/12/29 23:54:45 2021/12/29
【摘要】 python-pandas之Index数据分析(六) 索引对象 '''数据结构 索引对象• pandas的索引对象负责管理轴标签和其他元数据(比如轴名称等)。构建Series或DataFrame时,所用到的任何数组或其他序列的标签都会被转换成一个Index。• Index对象是不可修改的(immutable),因此用户不能对其进行修...

python-pandas之Index数据分析(六)

索引对象


  
  1. '''
  2. 数据结构 索引对象
  3. • pandas的索引对象负责管理轴标签和其他元数据(比如轴名称等)。构建
  4. Series或DataFrame时,所用到的任何数组或其他序列的标签都会被转换成一
  5. 个Index。
  6. • Index对象是不可修改的(immutable),因此用户不能对其进行修改。不可
  7. 修改性非常重要,因为这样才能使Index对象在多个数据结构之间安全共享。
  8. • pandas中主要的index对象
  9. 类型 说明
  10. index 最泛化的Index对象,将轴标签为一个由Python对象组成的NumPy数组。
  11. Int64Index 针对整数的特殊Index
  12. MultiIndex “层次化”索引对象,表示单个轴上的多层索引。可以看做由园数组组成的数
  13. 组。
  14. DatetimeIndex 存储纳秒级时间戳
  15. PeriodIndex 针对Period数据的特殊Index
  16. • Index的方法和属性 I
  17. 类型 说明
  18. append append 连接另一个Index对象,产生一个新的Index。
  19. diff 计算差集,并得到一个Index。
  20. intersection 计算交集
  21. union 计算并集
  22. isin 计算一个指示各值是否包含在参数集合中的布尔型数组
  23. delete 删除索引i处的元素,并得到新的Index。
  24. • Index的方法和属性 II
  25. 类型 说明
  26. drop 删除传入的值,并得到新的索引。
  27. insert 将元素插入到索引i处,并得到新的Index。
  28. is_monotonic 当各元素均大于等于前一个元素时,返回True。
  29. is_unique 当Index没有重复值时,返回True。
  30. unique 计算Index中唯一值得数组
  31. '''
  32. import numpy as np
  33. import pandas as pd
  34. import sys
  35. from pandas import Series,DataFrame,Index
  36. print('获取index')
  37. obj = Series(range(3),index=['a','b','c'])
  38. index = obj.index
  39. print(index[1:]) #打印index从1开始的所有索引
  40. try:
  41. index[1] = 'd' #Index对象是不可修改的(immutable),因此用户不能对其进行修改。不
  42. except:
  43. print
  44. print(sys.exc_info()[0])
  45. print('Index对象')
  46. index = Index(np.arange(3))
  47. obj2 = Series([1.6,23.3,6],index= index)
  48. print(obj2)
  49. print('判断列和索引是否存在')
  50. pop = {'Nevada':{20001:2.4, 2002:2.9},
  51. 'Ohio':{2000:1.5, 2001:1.7, 2002:3.6}}
  52. frame3 = DataFrame(pop)
  53. print(frame3)
  54. print('Ohio'in frame3.columns) # True
  55. print('3923' in frame3.index) # False

 

重新索引


  
  1. '''
  2. 基本功能 重新索引
  3. • 创建一个适应新索引的新对象,该Series的reindex将会根据新索引进行重排。
  4. 如果某个索引值当前不存在,就引入缺失值
  5. • 对于时间序列这样的有序数据,重新索引时可能需要做一些插值处理。
  6. method选项即可达到此目的。
  7. • reindex函数的参数
  8. 类型 说明
  9. index 用作索引的新序列。既可以是Index实例,也可以是其它序列型的Python数据
  10. 结构。Index会被完全使用,就像没有任何复制一样。
  11. method 插值填充方式,ffill或bfill。
  12. fill_value 在重新索引过程中,需要引入缺失值时使用的替代值。
  13. limit 前向或后向填充时的最大填充量
  14. level 在MultiIndex的指定级别上匹配简单索引,否则选取其子集。
  15. copy 默认为True,无论如何都复制。如果为False,则新旧相等就不复制。
  16. '''
  17. import numpy as np
  18. from pandas import DataFrame,Series
  19. print('重新指定索引及顺序')
  20. obj = Series([3.4,5.4,5.6,-4],index=['d', 'b', 'a', 'c'])
  21. print(obj)
  22. obj2 = obj.reindex(['a', 'b', 'd', 'c', 'e'])
  23. print('重新指定索引obj2\n',obj2)
  24. print('指定不存在元素的默认值')
  25. print(obj.reindex(['a', 'b', 'd', 'c', 'e'], fill_value = 0)) # 指定不存在元素的默认值
  26. print('重新指定索引并指定填元素充方法')
  27. obj3 = Series(['libai','dufu','tangshi'],index=[0,2,4])
  28. print(obj3)
  29. print(obj3.reindex(range(6),method='ffill')) #method 插值填充方式,ffill或bfill。
  30. print('对DataFrame重新指定索引')
  31. frame = DataFrame(np.arange(9).reshape(3, 3),
  32. index = ['a', 'c', 'd'],
  33. columns = ['Ohio', 'Texas', 'California'])
  34. print(frame)
  35. frame2 = frame.reindex(['a', 'b', 'c', 'd'])
  36. print(frame2)
  37. print('重新指定column')
  38. states = ['Texas', 'Utah', 'California']
  39. print(frame.reindex(columns = states))
  40. print('对DataFrame重新指定索引并指定填元素充方法')
  41. print(frame.reindex(index = ['a', 'b', 'c','d'],
  42. # method='ffill',
  43. columns = states))
  44. print(frame.ix[['a', 'b', 'd', 'c'], states])

 

删除索引上的值


  
  1. '''
  2. 基本功能 丢弃指定轴上的项
  3. • 丢弃某条轴上的一个或多个项很简单,只要有一个索引数组或列表即可。由于
  4. 需要执行一些数据整理和集合逻辑,所以drop方法返回的是一个在指定轴上删
  5. 除了指定值的新对象
  6. '''
  7. import numpy as np
  8. from pandas import Series,DataFrame
  9. print('Series根据索引删除元素')
  10. obj = Series(np.arange(5),index=['a','b','c','d','e'])
  11. obj2 = obj.drop('c')
  12. print(obj2) #删除C索引对应的值
  13. print(obj.drop(['d','e']))
  14. print('DataFrame删除元素,可指定索引或列。')
  15. data = DataFrame(np.arange(16).reshape((4,4)),
  16. index=['A','B','C','D'],
  17. columns=['N1','N2','N3','N4'])
  18. print(data)
  19. print('删除A行的元素')
  20. print(data.drop('A'))
  21. print('删除N1列的元素')
  22. print(data.drop('N1',axis=1))
  23. print(data.drop(['N1','N3'],axis=1))

 

索引、选取和过滤


  
  1. '''
  2. 基本功能 索引、选取和过滤
  3. • Series索引(obj[...])的工作方式类似于NumPy数组的索引,只不过Series的
  4. 索引值不只是整数。
  5. • 利用标签的切片运算与普通的Python切片运算不同,其末端是包含的
  6. (inclusive)。
  7. • 对DataFrame进行索引其实就是获取一个或多个列
  8. • 为了在DataFrame的行上进行标签索引,引入了专门的索引字段ix。
  9. • DataFrame的索引选项
  10. 类型 说明
  11. obj[val] 选取DataFrame的单个列或一组列。在一些特殊情况下会比较便利:布尔型数组(过滤
  12. 行)、切片(行切片)、布尔型DataFrame(根据条件设置值)。
  13. obj.ix[val] 选取DataFrame的单个行或一组行
  14. obj.ix[:, val] 选取单个列或列子集
  15. obj.ix[val1, val] 同时选取行或列
  16. reindex方法 将一个或多个轴匹配到新索引
  17. xs方法 根据标签选取单行或单列,并返回一个Series。
  18. icol、irow方法 根据整数位置选取单行或单列,并返回一个Series。
  19. get_value、set_value方法 根据行标签或列标签选取单个值
  20. '''
  21. import numpy as np
  22. from pandas import Series,DataFrame
  23. print('Series的索引,默认数字索引可以工作。')
  24. obj = Series(np.arange(4),index=['a','b','c','d'])
  25. print('obj的b索引对应的值')
  26. print(obj['b'])
  27. print(obj[2])
  28. print(obj[[2,3]])
  29. print(obj[obj<2])
  30. print('Series的数组切片')
  31. print(obj['b':'c']) # 闭区间
  32. obj['b':'c'] = 5 #将b和c索引的值重新赋值
  33. print(obj)
  34. print('DataFrame的索引')
  35. data = DataFrame(np.arange(16).reshape((4,4)),
  36. index=['A','B','C','D'],
  37. columns=['N1','N2','N3','N4'])
  38. print(data['N1']) #打印N1列元素
  39. print('打印N1、N3列元素,同时显示行索引\n',data[['N1','N3']])#打印N1、N3列元素,同时显示行索引
  40. print('分片方式打印前两行元素\n',data[:2])
  41. print('指定索引和列')
  42. print(data.ix['B',['N2','N4']])
  43. print('指定行索引显示A和B,列索引将按照3,0,1顺序显示即N4,N1,N2')
  44. print(data.ix[['A', 'B'], [3, 0, 1]])
  45. print(data.ix[0]) #打印第一行
  46. print(data.ix[:'C', 'N2']) # 从A到C行的第2列元素显示。
  47. print('根据条件选择')
  48. print(data[data.N3>3]) #帅选第三列大于3的元素
  49. print(data<5) # 打印True或者False
  50. data[data < 5] = 0 #将小于5的元素填充为0
  51. print(data)

 

文章来源: brucelong.blog.csdn.net,作者:Bruce小鬼,版权归原作者所有,如需转载,请联系作者。

原文链接:brucelong.blog.csdn.net/article/details/80688859

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。