python数据分析:介绍几个简单且有用的代码

举报
nineteens 发表于 2021/06/24 16:40:43 2021/06/24
【摘要】 python数据分析:介绍几个简单且有用的代码

  数据分析大致分为数据处理,模型建立,模型测试这3部,这篇文章主要是讲解对数据进行处理

  为了对数据进行分析,首先要了解学习python的熊猫库pandas,下面是一些基础简单的操作方法,python调用方法如下

  import pandas as pd

  python通过pandas读取csv文件的方法

  df= pd.read_csv("xxx.csv")

  #输出文件内容前五列

  print(df.head())

  #输出csv所有内容

  print(df)

  查看csv某列数据的方法

  pandas.read_csv(‘file_name.csv’, usecols = [0,1,2,3])

  #简单方法

  df["属性列名称"]

  pandas删除csv数据某些列的方法

  droplabels= ['x_cat4','x_cat5','x_cat8','x_cat9']

  data=df.drop(droplabels,axis=1)

  pandas对NAN数据清洗的方法

  #将表格中含有nan数值的列进行删除,返回非空数据和索引值的Series

  df.dropna()

  '''

  dropna(axis=0,how=’any’,thresh=None),how参数可选的值为any或者all.all仅在切片元素全为NA时才抛弃该行(列)。thresh为整数类型,eg:thresh=3,那么一行当中至少有三个NA值时才将其保留。

  '''

  data.fillna(0) #将nan替换为0

  print(data.fillna(data.mean())) ### 用每列特征的均值填充缺失数据

  print(data.fillna(data.median())) ### 用每列特征的中位数填充缺失数据

  print(data.fillna(method='bfill')) ### 用相邻后面(back)特征填充前面空值

  print(data.fillna(method='pad')) ### 用相邻前面特征填充后面空值

  #

  pandas对csv文件数据的更改的方法

  #更改某列属性数值和类型

  df = df[df['涨跌幅']!='None']

  df['涨跌幅'] = df['涨跌幅'].astype(np.float64)

  df = pd.DataFrame(a, dtype='float') #数据类型转化

  #大连人流医院 http://mobile.84211111.cn/

  #对数据全部遍历读取并更改,参考如下

  for i in df.index:

  df["id1"][i]=1

  pandas的iloc的使用方法和作用

  X = df.iloc[:, data.columns != 'label'] # 取出不包括 label其他的列

  df.iloc[:3, :2] #使用.iloc ,我们只选择了.iloc的前3行和2列

  计算某列元素数量的方法

  sum= len(data[data.label == 'BENIGN']) #计算BENIGN的数量

  len(df)

  pandas对文件进行保存的方法

  #df为要保存的数据,xxx.csv为保存的文件

  df.to_csv('xxx.csv', index=False, sep=',')

  以上是pandas对数据进行处理的简单功能,其中含有一些参考学习的博客,感兴趣的同学可以观看学习。有了这些基础知识,我们才能对数据集进行处理,接下来就是如何使用的问题了,下面讲解简单的套路。

  1.首先观察数据,通过代码检测每一列的数据类型再进行考察,检测是否存在NAN值,可以删除该列,也可根据情况进行数值的变动。

  2.数据集中可能存在部分列属性为time属性,一般不要直接将该列删除,可通过将其转化为浮点类型

  3.字符串类型向数值类型的转换,部分字符串需要进行转换,这个就视情况而定了。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。