Python数据分析与展示:Series类型简单操作-8

举报
彭世瑜 发表于 2021/08/13 23:49:34 2021/08/13
【摘要】 Pandas是Python第三方库,提供高性能易用数据类型和分析工具 官网文档:http://pandas.pydata.org/pandas-docs/stable/10min.html 引入: import pandas as pd 1 Pandas基于NumPy实现,常与NumPy和Matplotlib一同使用 两个数据类型:Series, DataFr...

Pandas是Python第三方库,提供高性能易用数据类型和分析工具

官网文档:http://pandas.pydata.org/pandas-docs/stable/10min.html

引入:

import pandas as pd

  
 
  • 1

Pandas基于NumPy实现,常与NumPy和Matplotlib一同使用

两个数据类型:Series, DataFrame

基于上述数据类型的各类操作

  • 基本操作
  • 运算操作
  • 特征类操作
  • 关联类操作
NumPy Pandas
数据类型 基础 扩展
关注数据 结构表达 应用表达
维度关系 数据间关系 数据与索引间关系

Series类型

Series类型由一组数据及与之相关的数据索引组成

  • 自动索引
  • 自定义索引

Series是一维带“标签”数组
结构:data_a index_0
Series基本操作类似ndarray和字典,根据索引对齐

Series类型创建:

  • Python列表,index与列表元素个数一致
  • 标量值,index表达Series类型的尺寸
  • Python字典,键值对中的“键”是索引,index从字典中进行选择操作
  • ndarray,索引和数据都可以通过ndarray类型创建
  • 其他函数,range()函数等

Series类型基本操作

  1. Series类型包括index和values两部分

    • .index 获得索引
    • .values 获得数据
  2. Series类型的操作类似ndarray类型

    • 索引方法相同,采用[]
    • NumPy中运算和操作可用于Series类型
    • 可以通过自定义索引的列表进行切片
    • 可以通过自动索引进行切片,如果存在自定义索引,则一同被切片
  3. Series类型的操作类似Python字典类型:

    • 通过自定义索引访问
    • 保留字in操作
    • 使用.get()方法

Series类型对齐操作

Series+ Series
Series类型在运算中会自动对齐不同索引的数据

Series类型name属性

Series对象和索引都可以有一个名字,存储在属性.name中

Series类型的修改

对获取的值进行赋值

代码示例

# -*- coding: utf-8 -*-

# @File : series_demo.py
# @Date : 2018-05-19

import pandas as pd

# 创建Series对象
d = pd.Series(range(5))

print(d)
"""
0 0
1 1
2 2
3 3
4 4
dtype: int64
"""

# 计算前N项和
print(d.cumsum())
"""
0 0
1 1
2 3
3 6
4 10
dtype: int64
"""

# 自动索引
d = pd.Series([1, 2, 3, 4, 5])
print(d)
"""
0 1
1 2
2 3
3 4
4 5
dtype: int64
"""

# 自定义索引
d = pd.Series([1, 2, 3, 4, 5], index=["a", "b", "c", "d", "e"])
print(d)
"""
a 1
b 2
c 3
d 4
e 5
dtype: int64
"""

# 从标量值创建, 不能省略index
s = pd.Series(20, index=["a", "b", "c"])
print(s)
"""
a 20
b 20
c 20
dtype: int64
"""

# 从字典类型创建
s = pd.Series({"a": 1, "b": 2, "c": 3})
print(s)
"""
a 1
b 2
c 3
dtype: int64
"""

# index从字典中进行选择操作
s = pd.Series({"a": 1, "b": 2, "c": 3}, index=["c", "a", "b", "d"])
print(s)
"""
c 3.0
a 1.0
b 2.0
d NaN
dtype: float64
"""

# 从ndarray类型创建
import numpy as np
s = pd.Series(np.arange(5))
print(s)
"""
0 0
1 1
2 2
3 3
4 4
dtype: int32
"""

# 指定索引
s = pd.Series(np.arange(5), index=np.arange(9, 4, -1))
print(s)
"""
9 0
8 1
7 2
6 3
5 4
dtype: int32
"""

# Series基本操作
s = pd.Series([1, 2, 3, 4, 5], index=["a", "b", "c", "d", "e"])

# 获得索引
print(s.index)
# Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

# 获得值
print(s.values)
# [1 2 3 4 5]

# 自动索引和自定义索引并存 但不能混
print(s[0])
# 1

print(s["a"])
# 1

# 切片操作
print(s[["a", "b"]])
"""
a 1
b 2
dtype: int64
"""

# 类似ndarray类型
print(s[:3])
"""
a 1
b 2
c 3
dtype: int64
"""

print(s[s>s.median()])
"""
d 4
e 5
dtype: int64
"""

print(np.exp(s))
"""
a 2.718282
b 7.389056
c 20.085537
d 54.598150
e 148.413159
dtype: float64
"""

# 类似Python字典类型
print("b" in s)
# True

print(s.get("g", 100))
# 100

# Series类型对齐操作
a = pd.Series([1, 2, 3], index=["a", "b", "c"])
b = pd.Series([5, 6, 7, 8], index=["a", "b", "d", "e"])

print(a+b)
"""
a 6.0
b 8.0
c NaN
d NaN
e NaN
dtype: float64
"""

# Series类型name属性
s = pd.Series([1, 2, 3, 4, 5], index=["a", "b", "c", "d", "e"])
s.name="Series"
s.index.name = "索引"
print(s)
"""
索引
a 1
b 2
c 3
d 4
e 5
Name: Series, dtype: int64
"""

# Series修改
s = pd.Series([1, 2, 3, 4, 5], index=["a", "b", "c", "d", "e"])
s[0] = 666
print(s)
"""
0 666
1 2
2 3
3 4
4 5
dtype: int64
"""

s["a", "b"] = 20
print(s)
"""
a 20
b 20
c 3
d 4
e 5
dtype: int64
"""

# Series删除元素
s = pd.Series([1, 2, 3, 4, 5, 6], index=["a", "b", "c", "d", "e", "f"])
print(s)
"""
a 1
b 2
c 3
d 4
e 5
f 6
dtype: int64
"""
s1 = s.drop(["a", "b"])
print(s1)
"""
c 3
d 4
e 5
f 6
dtype: int64
"""
  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80
  • 81
  • 82
  • 83
  • 84
  • 85
  • 86
  • 87
  • 88
  • 89
  • 90
  • 91
  • 92
  • 93
  • 94
  • 95
  • 96
  • 97
  • 98
  • 99
  • 100
  • 101
  • 102
  • 103
  • 104
  • 105
  • 106
  • 107
  • 108
  • 109
  • 110
  • 111
  • 112
  • 113
  • 114
  • 115
  • 116
  • 117
  • 118
  • 119
  • 120
  • 121
  • 122
  • 123
  • 124
  • 125
  • 126
  • 127
  • 128
  • 129
  • 130
  • 131
  • 132
  • 133
  • 134
  • 135
  • 136
  • 137
  • 138
  • 139
  • 140
  • 141
  • 142
  • 143
  • 144
  • 145
  • 146
  • 147
  • 148
  • 149
  • 150
  • 151
  • 152
  • 153
  • 154
  • 155
  • 156
  • 157
  • 158
  • 159
  • 160
  • 161
  • 162
  • 163
  • 164
  • 165
  • 166
  • 167
  • 168
  • 169
  • 170
  • 171
  • 172
  • 173
  • 174
  • 175
  • 176
  • 177
  • 178
  • 179
  • 180
  • 181
  • 182
  • 183
  • 184
  • 185
  • 186
  • 187
  • 188
  • 189
  • 190
  • 191
  • 192
  • 193
  • 194
  • 195
  • 196
  • 197
  • 198
  • 199
  • 200
  • 201
  • 202
  • 203
  • 204
  • 205
  • 206
  • 207
  • 208
  • 209
  • 210
  • 211
  • 212
  • 213
  • 214
  • 215
  • 216
  • 217
  • 218
  • 219
  • 220
  • 221
  • 222
  • 223
  • 224
  • 225
  • 226
  • 227
  • 228
  • 229
  • 230
  • 231
  • 232
  • 233
  • 234
  • 235
  • 236
  • 237
  • 238
  • 239
  • 240
  • 241
  • 242
  • 243
  • 244

文章来源: pengshiyu.blog.csdn.net,作者:彭世瑜,版权归原作者所有,如需转载,请联系作者。

原文链接:pengshiyu.blog.csdn.net/article/details/80383987

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。