《数据科学与分析:Python语言实现》 —1.4.6 数据科学:一个迭代过程

举报
华章计算机 发表于 2020/02/15 18:57:14 2020/02/15
【摘要】 本节书摘来自华章计算机《数据科学与分析:Python语言实现》 一书中第1章,第1.4.6节,作者是[英]赫苏斯·罗格尔–萨拉查(Jesús Rogel-Salazar),白 皓 刘江一 上官明乔 刁 娟 译。

1.4.6 数据科学:一个迭代过程

机器学习模型已经在干净的数据上运行的简单事实并不意味着数据科学家的工作已经完成并且尘埃落定。相反,需要仔细监控模型的有效性,因为结果取决于提供给模型的数据。一个简单的例子就是garbage-in-garbage-out(若输入错误数据,则输出亦为错误数据)。类似地,具有各种新特征的任何新数据都可能降低初始模型的准确性,因此有必要调整参数或获取新数据。

此外,即使最开始存在一个不需要改变的模型,但随着新的和后续的问题在数据科学分析过程中不断涌现,工作流程逐渐向上螺旋盘升,因此需要不断迭代改进以提供新的洞察力。

我想用一些数据科学家团队及相关负责人应该始终牢记的问题来结束本章:

  • 使用什么数据?为什么?

  • 数据从何而来,谁拥有它们?

  • 是否使用了整个数据集?这个集合能代表整个样本空间吗?

  • 有异常值吗?分析中考虑过它们吗?

  • 在应用模型/算法时做出了什么假设条件?它们容易放松/加强吗?

  • 模型的结果对流程/业务/产品意味着什么?


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。