机器学习(自然语言处理)—表的处理

举报
相信光的奥特王小懒 发表于 2022/04/28 17:08:01 2022/04/28
【摘要】 在处理数据的时候对表的处理

数据处理项目经验:(数据处理时需要用到python中的pandas和numpy)

  1. 第一步,将项目所需表头所在的总表读入并赋值,代码如下:
    data_info =  pd.read_csv('***********.csv(此处输入的是表头总表所在的绝对路径)')
    
  2. 第二步,将所有表的相关表头信息分开从总表头表中提取出来并分别进行赋值
    columns_info=data_info[data_info['文件名'] == '数据表名']['字段英文名']
    columns_debit=data_info[data_info['文件名'] == '数据表名']['字段英文名']
    columns_credit=data_info[data_info['文件名'] == '数据表名']['字段英文名']
    

  3. 第三步,将所需要处理的所有dat表进行读入训练集和测试集:
    训练集:
    
    df_basicinfo = pd.read_table('此处为dat表所在地址/表的名称.dat',sep='\|@\|',header = None,engine = 'python')
    df_debit = pd.read_table('此处为dat表所在的地址/表的名称.dat',sep='\|@\|',header = None,engine = 'python')
    df_credit = pd.read_table('此处为dat表所在的地址/表的名称.dat',sep='\|@\|',header = None,engine = 'python')
    
    测试集:
    
    test_a_basicinfo = pd.read_table('dat表所在的地址/表的名称.dat',sep='\|@\|',header = None,engine = 'python')
    test_a_debit = pd.read_table('dat表所在的地址/表的名称.dat',sep='\|@\|',header = None,engine = 'python')
    test_a_credit = pd.read_table('dat表所在的地址/表的名称.dat',sep='\|@\|',header = None,engine = 'python')
    

  4. 第四步,将表头分别在每张表中进行显示(以列表的形式)
    df_basicinfo.columns = (list(columns_info))
    df_credit.columns = (list(columns_credit))
    df_debit.columns = (list(columns_debit))
    
    test_a_basicinfo.columns = (list(columns_info_notarget))
    test_a_credit.columns = (list(columns_credit))
    test_a_debit.columns = (list(columns_debit))
    
    

注意:
1.删除列的时候为axis=0,删除行的时候axis=1 *.drop(,axis=0)
2.表名.describe()表示是查看表的信息
3.表名.shape表示的是查看表多少行和列 4.aa[‘cust_no’] == 85115,该句表示的是查找该表中值为85115 出现的次数
5.合并表的代码是pd.merge(表一,表二,on=“此处填写的是两张表之间通过哪个字段进行连 接,比如通过id”)
6.查看超过100列的表的所有列信息 m.info(verbose=True,null_counts=True) (m是表,该表大于100列)

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。