- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

机器学习（自然语言处理）—表的处理

相信光的奥特王小懒发表于 2022/04/28 17:08:01 2022/04/28

【摘要】在处理数据的时候对表的处理

数据处理项目经验：（数据处理时需要用到python中的pandas和numpy）

第一步，将项目所需表头所在的总表读入并赋值，代码如下：

data_info =  pd.read_csv('***********.csv(此处输入的是表头总表所在的绝对路径)')

第二步，将所有表的相关表头信息分开从总表头表中提取出来并分别进行赋值

columns_info=data_info[data_info['文件名'] == '数据表名']['字段英文名']
columns_debit=data_info[data_info['文件名'] == '数据表名']['字段英文名']
columns_credit=data_info[data_info['文件名'] == '数据表名']['字段英文名']

第三步，将所需要处理的所有dat表进行读入训练集和测试集：

训练集：

df_basicinfo = pd.read_table('此处为dat表所在地址/表的名称.dat',sep='\|@\|',header = None,engine = 'python')
df_debit = pd.read_table('此处为dat表所在的地址/表的名称.dat',sep='\|@\|',header = None,engine = 'python')
df_credit = pd.read_table('此处为dat表所在的地址/表的名称.dat',sep='\|@\|',header = None,engine = 'python')

测试集：

test_a_basicinfo = pd.read_table('dat表所在的地址/表的名称.dat',sep='\|@\|',header = None,engine = 'python')
test_a_debit = pd.read_table('dat表所在的地址/表的名称.dat',sep='\|@\|',header = None,engine = 'python')
test_a_credit = pd.read_table('dat表所在的地址/表的名称.dat',sep='\|@\|',header = None,engine = 'python')

第四步，将表头分别在每张表中进行显示（以列表的形式）

df_basicinfo.columns = (list(columns_info))
df_credit.columns = (list(columns_credit))
df_debit.columns = (list(columns_debit))

test_a_basicinfo.columns = (list(columns_info_notarget))
test_a_credit.columns = (list(columns_credit))
test_a_debit.columns = (list(columns_debit))

注意：
1.删除列的时候为axis=0,删除行的时候axis=1 *.drop(,axis=0)
2.表名.describe()表示是查看表的信息
3.表名.shape表示的是查看表多少行和列 4.aa[‘cust_no’] == 85115，该句表示的是查找该表中值为85115 出现的次数
5.合并表的代码是pd.merge(表一，表二，on=“此处填写的是两张表之间通过哪个字段进行连接，比如通过id”)
6.查看超过100列的表的所有列信息 m.info(verbose=True,null_counts=True) （m是表，该表大于100列）

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

机器学习（自然语言处理）—表的处理

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

机器学习（自然语言处理）—表的处理

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品