- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【参赛心得】平安集团首届“数创杯”数据建模大赛

开飞机的大象发表于 2018/12/18 18:28:10 2018/12/18

【摘要】上周参加了公司举办的“平安集团“数创杯”数据建模大赛”，这次比赛吸引了平安集团的多家专业子公司的24支数据建模团队参加，如下是我的参赛心得分享。

上周参加了公司举办的“平安集团“数创杯”数据建模大赛”，这次比赛吸引了平安集团的多家专业子公司的24支数据建模团队参加。

比赛现场

本次比赛的赛题是“某金融产品的购买行为预测”，根据用户的一些特征，预测用户是否会购买是否产生购买行为。

比赛现场

我和一名队友JLL组队参加了这次比赛，比赛主办方12月12日开放了比赛平台，发布了部分数据集供参赛选手进行试炼。我们拿到数据后，进行了一些分析，建模，但很遗憾，队友比赛的那天，有更加重要的事情。所以我只能独自一人到现场参加比赛。

我们队名【聚数为塔】

现场比赛的时间非常短，从12月15日上午9：00开放正式比赛平台，到12月16日14：00结束比赛。中间只有短短的29个小时，期间经历了多次平台不稳定，系统崩溃，无法登陆，提交等问题。

比赛采用coding马拉松方式，晚上可以自由安排休息时间，大家普遍都很晚才回去

相比其他队的4个人，现场我只有自己一个人，人力上来说，明显吃亏很多。因此，我只能采用比较快速，保守的策略。

在数据的与处理上，对部分string类型的数据进行了one hot编码转换处理，其他结构化的数据直接拿来使用。之后使用GBDT，gbm，RF，LR等方法逐一测试，选择模型。

最后得到的结论是GBDT效果比较好，因此我确认了使用GBDT进行建模。比赛采用的评分标准是F1Score，GBDT输出的预测值是一个概率值，而真实值是一个0-1的二分类值，这里我使用了一个动态阈值的方法，来得到一个最优的分割点a，大于a的值置1，反之置0。

此次比赛最后得到的结果是第9名，由于没有拿到奖金，这个结果我不是很满意，人力上的吃亏有较大的影响。但比赛结束后，前三名的队伍分享了经验，我对他们的方法也表示非常赞赏，认为自己和他们在数据的理解，以及模型知识上确实存在较大的差距。

比赛结果

前三名在比赛的过程中，都花了大量的时间观察数据，最后发现了数据之间的一些规律。针对这些规律进行了特征工程，虽然大家最后选择的模型方法都差不多，但正是由于他们特征工程做得好，因此得到了很好的效果。

而我这边，由于没有时间进行特征工程，直接将数据丢入模型内，造成了比分上的落后。

比赛结尾的时候，集团的首席科学家肖京有个观点令我非常认同。

肖京博士

他认为：我们过于强调特征工程的重要性了，对于模型我们反而认为没那么重要。这一点是很不正常的，因为对于真实生成而言，往往是结构化的数据少于非结构化的数据，机器学习不就是为了解决复杂问题么。因此，需要弱化人工的干预，减少人类经验对特征进行修饰干预。但肖博士现场也指出，我们大量做特征工程，是因为现场比赛的时间太少，复杂模型搭建成本较大，而且没有时间来验证模型效果。

这次比赛，让我最大的收获就是体验到了现场比赛的气氛，看到了大家的脑洞大开，感受到了参赛选手对数据分析的热情。

获得第一名的团队

对我而言，热情是最重要的品质。希望自己能继续进步，保持热情，收获更多的知识。

选手合影

====================================================================

本文发表在李思原博客“机器在学习”

原文链接：http://www.siyuanblog.com/?p=1715

欢迎扫码关注我的微信公众号：聚数为塔

=====================================================================

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【参赛心得】平安集团首届“数创杯”数据建模大赛

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

【参赛心得】平安集团首届“数创杯”数据建模大赛

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品