【数据分析】走进数据分析 4 读取数据

举报
我是小白呀iamarookie 发表于 2021/12/20 23:02:14 2021/12/20
【摘要】 【数据分析】⚠️走进数据分析 4⚠️ 读取数据 概述2021 年战绩数据准备读取数据读取 csv, txt 数据读取 Excel 数据读取图片 概述 数据分析 (Data Analyz...

【数据分析】⚠️走进数据分析 4⚠️ 读取数据

概述

数据分析 (Data Analyze) 可以在工作中的各个方面帮助我们. 本专栏为量化交易专栏下的子专栏, 主要讲解一些数据分析的基础知识.

在这里插入图片描述

2021 年战绩

  • CCF NLP 领域, 世界冠军
  • CCF CV 领域, 世界冠军
  • CCF 算法 领域, 世界冠军
  • CCF REC 领域, 世界冠军
  • CCF Machie Translate 领域, 世界亚军
  • 天池 Malware 领域, 第四
  • CTF 全国领先
  • 强化学习论文一作

数据准备

数据准备 (Data Preparation) 在我们日常编程中具有非常重要的地位. 能否在海量的数据中提取重要的信息, 一大半的决定了我们的任务是否能够达成目标. 在我看来, 数据分析比后续的模型建立训练更重要.

在这里插入图片描述

读取数据

今天我们就从最简单的部分开始讲解, 及如何读取数据.

在这里插入图片描述

读取 csv, txt 数据

通过 pandas 的read_csv方法, 可以帮助我们轻松读取数据.

格式:

pd.read_csv(
    filepath_or_buffer,
    sep,
    header,
    names
)

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

参数:

  • filepath_or_buffer: 文件路径
  • sep: 分隔符, 默认为 “,” 分割, 常用的有 “\t”, “|” 等
  • header: 指定行数用来做列名, 默认为第 0 行, 常用的有 “None”, 及无列名
  • names: 用于指定列名, 例如 names=[“index”, “value1”, “value2”]

例子:

def read_data_regular():
    """
    读取数据, 适用于csv, txt文件
    :return: 返回读取的数据
    """

    # 读取txt文件
    data1 = pd.read_csv("../data/data1.txt")
    print("从 txt 读取数据: \n", data1.head(), "\n")

    # 读取csv文件
    data2 = pd.read_csv("../data/data2.csv")
    print("从 csv 读取数据: \n", data2.head(), "\n")

    return data1, data2

if __name__ == '__main__':
    read_data_regular()

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18

输出结果:

从 txt 读取数据: 
    index  value
0      0   zero
1      1    one
2      2    two
3      3  three 

从 csv 读取数据: 
    index  value
0      0   zero
1      1    one
2      2    two
3      3  three 

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

读取 Excel 数据

通过 pandas 的read_excel方法, 可以帮助我们轻松读取 Excel 中的数据.

格式:

pd.read_excel(
	io,
    header=0,
    names=None,
    index_col=None,
)

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

参数:

  • io: 文件路径
  • header: 指定行数用来做列名, 默认为第 0 行, 常用的有 “None”, 及无列名
  • names: 用于指定列名, 例如 names=[“index”, “value1”, “value2”]
  • index_col: 索引列, 默认为 None

例子:

def read_data_excel():
    """
    读取Excel数据
    :return: 返回读取的数据
    """

    # 读取Excel文件
    data3 = pd.read_excel("../data/data3.xlsx")
    print("从 excel 读取数据: \n", data3.head(), "\n")

    return data3

if __name__ == '__main__':
    read_data_excel()

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14

输出结果:

从 excel 读取数据: 
    index  value
0      0   zero
1      1    one
2      2    two
3      3  three 

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

读取图片

通过 cv2 的read_excel方法, 可以帮助我们轻松读取 Excel 中的数据.

cv2 安装:

pip install opencv-python

  
 
  • 1

格式:

cv2.imread(filename, flags=None)

  
 
  • 1

参数:

  • filename: 文件路径

例子:

def read_image():
    """
    读取图片数据
    :return: 返回读取的数据
    """

    # 读取图片
    image = cv2.imread("../data/image.jpg")
    
    # 获取图片长宽
    h, w, _= image.shape
    
    # 调试输出
    print("图片宽度:", w, "图片高度:", h)
    print(image)

    return image

if __name__ == '__main__':
    read_image()

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20

输出结果:

图片宽度: 900 图片高度: 383
[[[222 214 207]
  [222 214 207]
  [221 213 206]
  ...
  [231 225 218]
  [229 223 216]
  [229 221 214]]

 [[222 214 207]
  [222 214 207]
  [221 213 206]
  ...
  [225 218 209]
  [224 215 206]
  [221 212 203]]

 [[222 214 207]
  [222 214 207]
  [222 214 207]
  ...
  [212 203 190]
  [209 200 187]
  [206 197 184]]

 ...

 [[229 221 214]
  [229 221 214]
  [230 222 215]
  ...
  [209 197 187]
  [210 198 188]
  [211 199 189]]

 [[230 223 214]
  [230 222 215]
  [230 222 215]
  ...
  [210 198 188]
  [210 198 188]
  [211 199 189]]

 [[230 223 214]
  [230 222 215]
  [231 223 216]
  ...
  [210 198 188]
  [211 199 189]
  [211 199 189]]]

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50

文章来源: iamarookie.blog.csdn.net,作者:我是小白呀,版权归原作者所有,如需转载,请联系作者。

原文链接:iamarookie.blog.csdn.net/article/details/122033017

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。