数学建模学习笔记(九)数据预处理

举报
zstar 发表于 2022/08/06 01:49:16 2022/08/06
【摘要】 一些数据预处理的基本思路与步骤: 1、删除无关变量 2、检查重复值 3、检查缺失值 4、特殊处理(例如删除不相关评论…) 附pandas和numpy的部分处理代码: import pandas as ...

一些数据预处理的基本思路与步骤:
1、删除无关变量
2、检查重复值
3、检查缺失值
4、特殊处理(例如删除不相关评论…)

pandas和numpy的部分处理代码:

import pandas as pd
import numpy as np
df=pd.read_csv('pacifier.tsv', sep='\t', header=0)
df= df.drop('product_id',axis=1)
df= df.drop('review_id',axis=1)
df= df.drop('customer_id',axis=1)
df= df.drop('marketplace',axis=1)
df= df.drop('product_title',axis=1)
df= df.drop('product_category',axis=1)
df= df.drop('product_parent',axis=1)

#丢弃缺失数值
df=df.replace(to_replace='?',value=np.nan)
df = df.dropna(how='any')

print(df.shape)
writer = pd.ExcelWriter('naizui.xlsx')
#df = df.to_csv("weibolu.tsv",index=0)
df = df.to_excel(writer)
writer.save()

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20

文章来源: zstar.blog.csdn.net,作者:zstar-_,版权归原作者所有,如需转载,请联系作者。

原文链接:zstar.blog.csdn.net/article/details/113133706

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。