- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《数据科学与分析：Python语言实现》 —1.4.6　数据科学：一个迭代过程

华章计算机发表于 2020/02/15 18:57:14 2020/02/15

【摘要】本节书摘来自华章计算机《数据科学与分析：Python语言实现》一书中第1章，第1.4.6节，作者是［英］赫苏斯·罗格尔–萨拉查（Jesús Rogel-Salazar），白　皓　刘江一　上官明乔　刁　娟　译。

1.4.6　数据科学：一个迭代过程

机器学习模型已经在干净的数据上运行的简单事实并不意味着数据科学家的工作已经完成并且尘埃落定。相反，需要仔细监控模型的有效性，因为结果取决于提供给模型的数据。一个简单的例子就是garbage-in-garbage-out（若输入错误数据，则输出亦为错误数据）。类似地，具有各种新特征的任何新数据都可能降低初始模型的准确性，因此有必要调整参数或获取新数据。

此外，即使最开始存在一个不需要改变的模型，但随着新的和后续的问题在数据科学分析过程中不断涌现，工作流程逐渐向上螺旋盘升，因此需要不断迭代改进以提供新的洞察力。

我想用一些数据科学家团队及相关负责人应该始终牢记的问题来结束本章：

使用什么数据？为什么？
数据从何而来，谁拥有它们？
是否使用了整个数据集？这个集合能代表整个样本空间吗？
有异常值吗？分析中考虑过它们吗？
在应用模型/算法时做出了什么假设条件？它们容易放松/加强吗？
模型的结果对流程/业务/产品意味着什么？

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《数据科学与分析：Python语言实现》 —1.4.6　数据科学：一个迭代过程

1.4.6　数据科学：一个迭代过程

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《数据科学与分析：Python语言实现》 —1.4.6 数据科学：一个迭代过程

1.4.6 数据科学：一个迭代过程

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

《数据科学与分析：Python语言实现》 —1.4.6　数据科学：一个迭代过程

1.4.6　数据科学：一个迭代过程