python-Numpy数据分析(二)

举报
brucexiaogui 发表于 2021/12/30 01:28:34 2021/12/30
2.1k+ 0 0
【摘要】 python-Numpy数据分析(二)   利用数组进行数据处理 将条件逻辑表述为数组运算 '''利用数组进行数据处理 将条件逻辑表述为数组运算• 列表推导的局限性• 纯Python代码,速度不够快。• 无法应用于高维数组• where和where的嵌套'''import numpy as npimport numpy....

python-Numpy数据分析(二)

利用数组进行数据处理 将条件逻辑表述为数组运算


      '''
      利用数组进行数据处理 将条件逻辑表述为数组运算
      • 列表推导的局限性
      • 纯Python代码,速度不够快。
      • 无法应用于高维数组
      • where和where的嵌套
      '''
      import numpy as np
      import numpy.random as np_random
      print('通过真值表选择元素')
      x_arr = np.array([1.1,1.2,1.3,1.4,1.5])
      y_arr = np.array([2.1,2.2,2.3,2.4,2.5])
      cond = np.array([True,False,True,True,False])
      result = [(x if c else y) for x, y, c in zip(x_arr, y_arr, cond)] # 通过列表推到实现
      print(result)
      print('np.where')
      print(np.where(cond, x_arr, y_arr))  # 使用NumPy的where函数
      print('更多where的例子')
      arr = np_random.randn(4,4)
      print(arr)
      print(np.where(arr>0,2,-2)) #当arr数组中的元素大于0时,设置值为2,小于0时设置值为-2
      print(np.where(arr > 0, 2, arr))#当arr数组中的元素大于0时,设置值为2,小于0时设置值为arr
      print('np.where嵌套')
      cond_1 = np.array([True, False, True, True, False])
      cond_2 = np.array([False, True, False, True, False])
      # 传统代码如下
      result = []
      for i in range(len(cond)):
         if cond_1[i] and cond_2[i]: #cond_1和cond_2都为True则赋值为0
              result.append(0)
         elif cond_1[i]:#cond_1为True则赋值为1
              result.append(1)
         elif cond_2[i]:#cond_2为True则赋值为2
              result.append(2)
         else:
              result.append(3)#cond_1和cond_2都为False则赋值为3
      print(result)   #[1, 2, 1, 0, 3]
      # np版本代码
      result = np.where(cond_1 & cond_2, 0,np.where(cond_1, 1, np.where(cond_2, 2, 3)))
      print(result)
  
 

利用数组进行数据处理 数学和统计方法


      '''
      利用数组进行数据处理 数学和统计方法
      • 数学和统计方法
      类型 说明
      sum 对数组中全部或某轴向的元素求和。零长度的数组的sum为0。
      mean 算术平均数。零长度的数组的mean为NaN。
      std, var 分别为标准差和方差,自由度可调(默认为n)。
      min, max 最大值和最小值
      argmin 分别为最大值和最小值的索引
      cumsum 所有元素的累计和
      cumprod 所有元素的累计积
      '''
      import numpy as np
      import numpy.random as np_random
      print('求和,求平均')
      arr = np.arange(10).reshape(2,5)
      print(arr)
      print(arr.mean())   #算术平均值4.5
      print(arr.sum())    #求和45
      print(arr.mean(axis = 1))  # 对每一行的元素求平均 [2. 7.]
      print(arr.sum(0))  # 对每一列元素求和,axis可以省略。[ 5  7  9 11 13]
      '''
      cumsum:
      - 按列操作:a[i][j] += a[i - 1][j]
      - 按行操作:a[i][j] *= a[i][j - 1]
      cumprod:
      - 按列操作:a[i][j] += a[i - 1][j]
      - 按行操作:a[i][j] *= a[i][j - 1]
      '''
      print('cunsum和cumprod元素的累积和')
      arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
      print(arr.cumsum(0))
      print(arr.cumprod(1))
  
 

利用数组进行数据处理 用于布尔型数组的方法


      '''
      利用数组进行数据处理 用于布尔型数组的方法
      • sum对True值计数
      • any和all测试布尔型数组,对于非布尔型数组,所有非0元素将会被当做True。
      '''
      import numpy as np
      import numpy.random as np_random
      print('正数求和')
      arr = np_random.randn(100)
      #print(arr)
      print((arr>0).sum())    #42
      print('对数组逻辑操作')
      bools = np.array([False,False,True,False])
      print(bools.any())# 有一个为True则返回True
      print(bools.all())# 有一个为False则返回False
  
 

利用数组进行数据处理 排序


      '''
      利用数组进行数据处理 排序
      • 直接排序
      • 指定轴排序
      '''
      import numpy as np
      import numpy.random as np_random
      print('一维数组排序')
      arr = np.array([2,8,6,7,4,5])
      print(arr)  #排序前的数组 [2 8 6 7 4 5]
      arr.sort()  #排序后的数组 [2 4 5 6 7 8]
      print(arr)
      print('二维数组排序')
      arr = np.array([[2,8,6,7,4,5],[19,18,13,15,17,12]])
      print(arr)
      arr.sort(1) # 对每一行元素做排序
      print(arr)
      print('找位置在5%的数字')
      large_arr = np_random.randn(1000)
      large_arr.sort()
      print(large_arr[int(0.05 * len(large_arr))])
  
 

利用数组进行数据处理 去重以及其它集合运算


      '''
      利用数组进行数据处理 去重以及其它集合运算
      • 去重以及其它集合运算
      类型 说明
      unique(x) 计算x中的唯一元素,并返回有序结果。
      intersect1d(x, y) 计算x和y中的公共元素,并返回有序结果。
      union1d(x, y) 计算x和y的并集,并返回有序结果。
      in1d(x, y) 得到一个表述"x的元素是否包含于y"的布尔型数组
      setdiff1d(x, y) 集合的差,即元素在x中且不在y中
      setxor1d(x, y) 集合的异或,即存在于一个数组中但不同时存在于两个数组中的元素
      '''
      import  numpy as np
      import  numpy.random as np_random
      print('用unique函数去重')
      name = np.array([4,2,3,5,1,4,2])
      print(np.unique(name))  #结果去重并排序 [1 2 3 4 5]
      print('查找数组元素是否在另一数组')
      value = np.array([6,3,5,2,6,4,5])
      print(np.in1d(value,[2,3,6]))   # [ True True False True True False False]
  
 

线性代数


      '''
      线性代数
      • 常用的numpy.linalg函数 I
      类型 说明
      diag 以一维数组的形式返回方阵的对角线(或非对角线元素),获将一维数组转换
      为方阵(非对角线元素为0)。
      dot 矩阵乘法
      trace 计算对角线元素的和
      det 计算矩阵行列式
      eig 计算方阵的特征值和特征向量
      inv 计算方阵的逆
      pinv 计算矩阵的Moore-Penrose伪逆
      qr 计算QR分解
      svd 计算奇异值分解
      solve 解线性方程Ax = b,其中A为一个方阵。
      lstsq 计算Ax = b的最小二乘解
      '''
      import  numpy as np
      import numpy.random as np_random
      from numpy.linalg import inv,qr
      print('矩阵乘法')
      x = np.array([[1,2,3],[4,5,6]])
      y = np.array([[3,2],[4,3],[5,4]])
      print('x.dot(y)')
      print(x.dot(y))
      print('np.dot(x,np.ones(3))')
      print(np.dot(x,np.ones(3)))
      x = np_random.randn(5,5)
      print(x)
      print('矩阵求逆')
      mat = x.T.dot(x)
      print(inv(mat)) # 矩阵求逆
      print(mat.dot(inv(mat)))
      print(mat.dot(inv(mat)))    # 与逆矩阵相乘,得到单位矩阵。
      print('矩阵消元')
      print(mat)
      q, r = qr(mat)
      print(q)
      print(r)
  
 

随机数生成


      '''
      随机数生成
      类型 说明
      seed 确定随机数生成器的种子
      permutation 返回一个序列的随机排列或返回一个随机排列的返回
      shuffle 对一个序列就地随机乱序
      rand 产生均匀分布的样本值
      randint 从给定的上下限范围内随机选取整数
      randn 产生正态分布(平均值为0,标准差为1)
      binomial 产生二项分布的样本值
      normal 产生正态(高斯)分布的样本值
      beta 产生Beta分布的样本值
      chisquare 产生卡方分布的样本值
      gamma 产Gamma分布的样本值
      uniform 产生在[0, 1]中均匀分布的样本值
      '''
      import numpy as np
      import numpy.random as np_random
      from random import *
      print('正态分布随机数')
      name = np.random.normal(size=(4,4))
      print(name)
  
 

数组重塑


      '''
      数组重塑
      reshape重塑数组
      • -1自动推导维度大小
      '''
      import numpy as np
      print("将一维数组转换为二维数组")
      arr = np.arange(8)
      print(arr.reshape((4, 2)))  #将一维数组转为二维数组
      print(arr.reshape((4,2)).reshape((2,4)))    #将二维数组行列置换
      print('维度大小自动推到')
      arr = np.arange(15)
      print(arr.reshape((5,-1)))
      print('获取维度信息并应用')
      other_arr = np.ones((3,5))
      print(other_arr.shape)
      print(arr.reshape(other_arr.shape))
      print('高维数组拉平,就是讲多维数组变为一维数组')
      arr = np.arange(15).reshape(5,3)
      print(arr.ravel())  #[ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14]
  
 

数组的合并和拆分


      '''
      数组合并和拆分
      '''
      import numpy as np
      import numpy.random as np_random
      print('连接两个二维数组')
      arr1 = np.array([[1, 2, 3], [4, 5, 6]])
      arr2 = np.array([[7, 8, 9], [10, 11, 12]])
      print('按行连接')
      print(np.concatenate([arr1,arr2],axis = 0))  # 按行连接
      print('按列连接')
      print(np.concatenate([arr1,arr2],axis = 1))  # 按列连接
      # 所谓堆叠,参考叠盘子。。。连接的另一种表述
      print('垂直stack与水平stack')
      print(np.vstack((arr1, arr2))) # 垂直堆叠
      print(np.hstack((arr1, arr2))) # 水平堆叠
      print('拆分数组')
      arr = np.arange(100).reshape(20,5)
      print(arr)
      print('水平拆分')
      first, second, third = np.split(arr, [1, 3], axis = 0)
      print('first')
      print(first)
      print('second')
      print(second)
      print('third')
      print(third)
      print('垂直拆分')
      first, second, third = np.split(arr, [1, 3], axis = 1)
      print('first')
      print(first)
      print('second')
      print(second)
      print('third')
      print(third)
      # 堆叠辅助类
      arr = np.arange(6)
      arr1 = arr.reshape((3, 2))
      arr2 = np_random.randn(3, 2)
      print('r_用于按行堆叠')
      print(np.r_[arr1, arr2])
      print('c_用于按列堆叠')
      print(np.c_[np.r_[arr1, arr2], arr])
      print('切片直接转为数组')
      print(np.c_[1:6, -10:-5])
  
 

元素的重复操作


      '''
      高级应用 元素的重复操作
      • _tile 数组级别的复制
      • _repeat 元素级别的复制
      '''
      import numpy as np
      import numpy.random as np_random
      print('Repeat:按元素')
      arr = np.arange(3)
      print(arr.repeat(3))#将arr数组每个元素都复制3次。[0 0 0 1 1 1 2 2 2]
      print(arr.repeat([2,3,2]))# 将arr数组元素分别按照2,3,2次复制[0 0 1 1 1 2 2]
      print('Repeat,指定轴')
      arr = np.arange(10).reshape(5,2)
      print(arr)
      print('按行repeat')
      print(arr.repeat(2, axis = 0)) # 按行repeat
      print('按列repeat')
      print(arr.repeat(2, axis = 1)) # 按列repeat
      print('Tile: 参考贴瓷砖')
      print(np.tile(arr, 2))
      print(np.tile(arr, (2, 3)))  # 指定每个轴的tile次数
  
 

花式索引的等价函数


      '''
      花式索引的等价函数
      • take
      • put
      '''
      import numpy as np
      import numpy.random as np_random
      print('Fancy Indexing')
      arr = np.arange(10)*100
      print('arr数组\n',arr)    #[ 0 100 200 300 400 500 600 700 800 900]
      inde = [2,4,6,7]
      print(arr[inde])    #[200 400 600 700]
      print('使用take')
      print(arr.take(inde))
      print('使用put更新内容')
      arr.put(inde,50)
      print(arr)  #[ 0 100 50 300 50 500 50 50 800 900]
      print('take,指定轴')
      arr = np_random.randn(2, 4)
      inds = [2, 0, 2, 1]
      print(arr)
      print(arr.take(inds, axis = 1))  # 按列take
  
 

文章来源: brucelong.blog.csdn.net,作者:Bruce小鬼,版权归原作者所有,如需转载,请联系作者。

原文链接:brucelong.blog.csdn.net/article/details/80676113

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

作者其他文章

评论(0

抱歉,系统识别当前为高风险访问,暂不支持该操作

    全部回复

    上滑加载中

    设置昵称

    在此一键设置昵称,即可参与社区互动!

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。