【参赛心得】平安集团首届“数创杯”数据建模大赛

举报
开飞机的大象 发表于 2018/12/18 18:28:10 2018/12/18
【摘要】 上周参加了公司举办的“平安集团“数创杯”数据建模大赛”,这次比赛吸引了平安集团的多家专业子公司的24支数据建模团队参加,如下是我的参赛心得分享。

上周参加了公司举办的“平安集团“数创杯”数据建模大赛”,这次比赛吸引了平安集团的多家专业子公司的24支数据建模团队参加。

比赛现场

本次比赛的赛题是“某金融产品的购买行为预测”,根据用户的一些特征,预测用户是否会购买是否产生购买行为。

比赛现场

我和一名队友JLL组队参加了这次比赛,比赛主办方12月12日开放了比赛平台,发布了部分数据集供参赛选手进行试炼。我们拿到数据后 ,进行了一些分析,建模,但很遗憾,队友比赛的那天,有更加重要的事情。所以我只能独自一人到现场参加比赛。

我们队名【聚数为塔】

现场比赛的时间非常短,从12月15日上午9:00开放正式比赛平台,到12月16日14:00结束比赛。中间只有短短的29个小时,期间经历了多次平台不稳定,系统崩溃,无法登陆,提交等问题。

比赛采用coding马拉松方式,晚上可以自由安排休息时间,大家普遍都很晚才回去

相比其他队的4个人,现场我只有自己一个人,人力上来说,明显吃亏很多。因此,我只能采用比较快速,保守的策略。

在数据的与处理上,对部分string类型的数据进行了one hot编码转换处理,其他结构化的数据直接拿来使用。之后使用GBDT,gbm,RF,LR等方法逐一测试,选择模型。

最后得到的结论是GBDT效果比较好,因此我确认了使用GBDT进行建模。比赛采用的评分标准是F1Score,GBDT输出的预测值是一个概率值,而真实值是一个0-1的二分类值,这里我使用了一个动态阈值的方法,来得到一个最优的分割点a,大于a的值置1,反之置0。

此次比赛最后得到的结果是第9名,由于没有拿到奖金,这个结果我不是很满意,人力上的吃亏有较大的影响。但比赛结束后,前三名的队伍分享了经验,我对他们的方法也表示非常赞赏,认为自己和他们在数据的理解,以及模型知识上确实存在较大的差距。

比赛结果

前三名在比赛的过程中,都花了大量的时间观察数据,最后发现了数据之间的一些规律。针对这些规律进行了特征工程,虽然大家最后选择的模型方法都差不多,但正是由于他们特征工程做得好,因此得到了很好的效果。

而我这边,由于没有时间进行特征工程,直接将数据丢入模型内,造成了比分上的落后。

比赛结尾的时候,集团的首席科学家肖京有个观点令我非常认同。

肖京博士

他认为:我们过于强调特征工程的重要性了,对于模型我们反而认为没那么重要。这一点是很不正常的,因为对于真实生成而言,往往是结构化的数据少于非结构化的数据,机器学习不就是为了解决复杂问题么。因此,需要弱化人工的干预,减少人类经验对特征进行修饰干预。但肖博士现场也指出,我们大量做特征工程,是因为现场比赛的时间太少,复杂模型搭建成本较大,而且没有时间来验证模型效果。

这次比赛,让我最大的收获就是体验到了现场比赛的气氛,看到了大家的脑洞大开,感受到了参赛选手对数据分析的热情。

获得第一名的团队

对我而言,热情是最重要的品质。希望自己能继续进步,保持热情,收获更多的知识。

选手合影

====================================================================

本文发表在李思原博客“机器在学习”

原文链接:http://www.siyuanblog.com/?p=1715

欢迎扫码关注我的微信公众号:聚数为塔

qrcode_for_gh_b8391fc7ce11_430.jpg

=====================================================================


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。