建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
请选择 进入手机版 | 继续访问电脑版
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块

yujiaolian...

发帖: 4粉丝: 0

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2020-1-1 13:14:17 519 1
直达本楼层的链接
楼主
显示全部楼层
[经验交流] NAIE体验——特征工程

       在使用模型训练服务的过程中用了很多次NAIE的特征工程,下面就简单分享一下特征工程的使用经验,如果有不足之处,欢迎大家指正和补充。

 

       在NAIE的特征工程中,数据准备阶段数据修复,数据过滤,数据过滤,数据连接等。

 

       这些方法可以从宏观上对数据集进行处理,节省了很多时间,非常好用。我就简单介绍一下其中的数据过滤。数据过滤主要是用来对具有大量缺失值的数据样本进行清洗。NAIE封装的数据清洗思路很简单,就是将含有空值的样本给去掉或者指定进行替换。这对于处理高质量样本非常方便好用。从我个人的经验来看,通常数据集质量参差不齐,因此数据清洗会比较麻烦。我通常会对于某一个特征的缺失比例进行计算,对于缺失比例过半或者更多的特征列,先进行删除,然后再进行缺失值修复。修复的方法也有很多,例如删除所在样本,用均值补齐等,需要具体情况具体分析。

      

特征处理这一栏就包含了更多的方法,除了我上面说到的删除列,还有one-hot编码,PCA,归一化等。这些工具都是特征处理中的手段。其中PCA是一个非常实用的工具,只需要选定一列作为标签列,就可以轻松解决“维度爆炸”的问题。不过通常使用PCA之前,需要先对数据进行归一化处理。

 

值得一提的是NAIE的特征工程是直接在数据集的副本上进行操作,不会修改原来的数据集,特征工程中的撤销也很方便,便于特征工程的前后的比较。

 

最近使用NAIE的特征工程,发现又多了很多的特征处理方法,包括新增特征,特征选择等,每个方法都进行了标注,有效避免了方法名称造成的混淆和歧义,从用户体验角度来说,特征工程这一模块的功能可以说是很实用了。大家有需要都可以感受一下新版本的特征工程,真的很不错。

 

希望大伙的特征工程越做越好,毕竟“特征工程决定了模型的上限”嘛~

      


举报
分享

分享文章到朋友圈

分享文章到微博

后希旭_训...

发帖: 3粉丝: 2

级别 : 注册会员

Rank: 2

发消息 + 关注

发表于2020-1-8 17:30:37
直达本楼层的链接
沙发
显示全部楼层

最新的交互式特征工程,体验更好,欢迎使用。

点赞 评论 引用 举报

游客

富文本
Markdown
您需要登录后才可以回帖 登录 | 立即注册