数据科学家在LSST机器学习竞赛中脱颖而出
新型望远镜将采用世界上最大的数码相机拍摄一系列高分辨率快照,每隔几天覆盖整个可见的夜空,并重复整个过程十年。这带来了巨大的数据挑战:快速自动识别和分类这些图像中捕获的所有恒星,星系和其他物体的最佳方法是什么?
为了帮助解决这个问题,正在进行大型天气调查望远镜项目的科学合作启动了数据科学家之间的竞赛,以培训计算机如何最好地完成这项任务。Kaggle.com平台上托管的光度计LSST天文时间序列分类挑战(PLAsTiCC)为300万个对象提供了模拟数据集,并且任务参与者可以识别出15种分类中哪一种最适合每个对象。
Kyle Boone是加州大学伯克利分校的研究生,他一直致力于计算机算法,以支持美国能源部劳伦斯伯克利国家实验室的附近超新星工厂实验和超新星宇宙学项目,他将一些业余时间用于国际机器 - 2018年末学习挑战,同时也致力于攻读博士学位。
“当我从事工作申请时,我开始玩这个比赛,以更多地了解机器学习,”Boone说。参与者每天最多可以提交五次代码,以检查他们在测试集中的100万个对象的排行榜上的表现。比赛从2018年9月28日到2018年12月17日,Boone在1093支球队中与其他1383名选手对抗。
他说:“在过去的几周里,我非常努力地工作,”他把所有的晚上和周末都投入到强烈的编码中。
“我的结果开始变得有竞争力,我急于实现我想出的所有不同想法。这很有趣,几支球队直到最后都是和睦相处。我学到了很多关于如何调整机器学习算法的知识。有很多小小的'旋钮'可以调整,以获得额外1%的性能。“
在比赛的最后一天进行科学讲话时,布恩收到了他未婚妻的一篇文章。“她告诉我说,'恭喜。' 这非常令人兴奋,“他说。他赢得了12,000美元的第一名,并参加了比赛的第二阶段更开放,并且正在推动更多适用的解决方案,对LSST将看到的对象进行分类 - 最新一轮于1月15日结束。
作为负责Kaggle挑战的加拿大多伦多大学天体物理学助理教授,RenéeHložek说:“看到各种方法组合如何能够带来真正创新和新颖的解决方案,真是令人耳目一新。
“我们对PLAsTiCC的下一次迭代有很大的计划,因为有很多方法可以使真正的LSST数据比我们当前的模拟更具挑战性。”
她指出,PLAsTiCC是通过两个研究LSST的科学小组合作创建的:瞬态和变星合作以及暗能源科学合作。
Gautham Narayan是太空望远镜科学研究所的拉斯克数据科学研究员,也是TVS和DESC的成员,并担任LSST Kaggle比赛的主持人,他表示PLAsTiCC竞争对手提交的解决方案都有不同的优点和缺点。
“我们正在查看他们的提交内容,看看我们能做得更好,”他说。可以混合和匹配不同的解决方案以开发改进的代码。
“机器学习的进展如此之快,”他说。“这些数字令人咋舌。”
布恩说:“竞争确实促使人们跳出框框思考并提出新的想法。有很多非常有趣的想法,我认为以前从未尝试过。我认为结合所有最好的模型将会给LSST带来巨大的推动并且非常有用。“
在他在伯克利实验室的工作中,Boone分析了从望远镜中获取的数据,以了解Ia型超新星的所有属性,并开发出能够为远距离超新星提供精确距离测量的新模型。Ia型超新星被用作所谓的“标准蜡烛”,用于根据其光度测量宇宙中的距离,但这些测量值可能受到它们所在的星系大小的影响。
Boone说他希望将他在LSST比赛中的编程工作应用到伯克利实验室的工作中。“这与我自己的研究非常相关,”他补充说,他计划根据他为比赛所写的机器学习代码准备一份科学论文。
- 点赞
- 收藏
- 关注作者
评论(0)