- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

python pandas 读取 0开头的字符串随机抽取数据

风吹稻花香发表于 2022/09/30 00:27:07 2022/09/30

【摘要】目录 pandas 读取csv 0开头的字符串 pandas 随机抽取1000行数据： pandas获取数据尺寸信息：获取数据总量和维度信息：获取行数： pandas 遍历速度比较筛选数据再遍历速度比较： pandas 读取csv 0开头的字符串 0开头的数字字符串，比如012355，会读成12355。 ...

pandas 读取csv 0开头的字符串

0开头的数字字符串，比如012355，会读成12355。

因此需要走下数据转换 converters={'code': str}可以对数据进行转换

code_data = pd.read_csv(file, encoding='utf8', converters={'code': str})

code是列名，需要换成你的文件列名，读取时会对那一列进行处理。

pandas 随机抽取1000行数据：

data = data.sample(n=1000,random_state=1)  #随机抽取1000行

pandas获取数据尺寸信息：

获取数据总量和维度信息：

print(df_label.size,df_label.shape)

如果df_label是3行5列，那么：

结果是15 (3, 5)

获取行数：

print(df_label.__len__())

print(df_label.shape[0])

pandas 遍历速度比较


  
   
    
     
    
    
     
          aa=1
     
    
   
    
     
    
    
     
          start=time.time()
     
    
   
    
     
    
    
         for row_index,data in enumerate(df_label.itertuples()):
     
    
   
    
     
    
    
     
              aa+=1
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
         print("aa time",aa,time.time()-start)
     
    
   
    
     
    
    
     
          aa = 1
     
    
   
    
     
    
    
         for row_index, data in enumerate(df_label.iterrows()):
     
    
   
    
     
    
    
     
              aa += 1
     
    
   
    
     
    
    
         print("bb time",aa, time.time() - start)
     
    
   
    
     
    
    
     
          aa = 1
     
    
   
    
     
    
    
         for row_index, data in df_label.iterrows():
     
    
   
    
     
    
    
     
              aa += 1
     
    
   
    
     
    
    
         print("cc time",aa, time.time() - start)

结果：

aa time 79039 0.43267178535461426
bb time 79039 6.147785902023315
cc time 79039 11.870731353759766

筛选数据再遍历速度比较：


  
   
    
     
    
    
     
          aa=1
     
    
   
    
     
    
    
     
          start=time.time()
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
          df_datas = df_label[df_label['group_id'] == 5]
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
         for row_index,data in enumerate(df_datas.itertuples()):
     
    
   
    
     
    
    
     
              aa+=1
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
         print("aa time",aa,time.time()-start)
     
    
   
    
     
    
    
     
          aa = 1
     
    
   
    
     
    
    
         for row_index, data in enumerate(df_datas.iterrows()):
     
    
   
    
     
    
    
     
              aa += 1
     
    
   
    
     
    
    
         print("bb time",aa, time.time() - start)
     
    
   
    
     
    
    
     
          aa = 1
     
    
   
    
     
    
    
         for row_index, data in df_datas.iterrows():
     
    
   
    
     
    
    
     
              aa += 1
     
    
   
    
     
    
    
         print("cc time",aa, time.time() - start)

结果：

aa time 6555 0.03705906867980957
bb time 6555 0.5034129619598389
cc time 6555 0.9736764430999756

总结：

itertuples速度最快，是iterrows速度的20-30倍。

文章来源: blog.csdn.net，作者：AI视觉网奇，版权归原作者所有，如需转载，请联系作者。

原文链接：blog.csdn.net/jacke121/article/details/127085729

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

python pandas 读取 0开头的字符串 随机抽取数据

pandas 读取csv 0开头的字符串

pandas 随机抽取1000行数据：

pandas获取数据尺寸信息：

获取数据总量和维度信息：

获取行数：

pandas 遍历速度比较

筛选数据再遍历速度比较：

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

python pandas 读取 0开头的字符串随机抽取数据