《数据科学与分析:Python语言实现》 —1.4 从数据到洞察力:数据科学工作流
1.4 从数据到洞察力:数据科学工作流
正如我们所看到的,数据科学家是一个有趣的角色,有时也是一个具有挑战性的角色。无论团队还是个人,不仅需要正确的技能组合,还需要正确的工具和商业问题。在这一节中,我们将讨论数据科学项目可能遵循的步骤。需要强调的是,尽管我们对各个步骤已经进行了归类和排序,但是实际工作流并不一定是线性的,正如在图1.3中展示的那样。
图1.3 数据科学工作流中涉及的各个步骤
具备新组建的数据科学团队和各种正确的技能组合后,我们已准备好解决问题,现在应该确定项目成功的关键衡量标准。此外,从一开始我们就应该意识到,在大多数情况下,不会有唯一的、最终的答案。因此,最好将问题框架转化为迭代过程,在每个迭代过程中得到更好的解决方案。数据科学工作流中的各个步骤包括:
问题识别
数据获取
数据挖掘
模型构建
表征
交互
上述步骤按照该顺序列出,但并不意味着它们必须一个接一个地进行。在某些情况下,可以由使用内部数据集开始,甚至可在清理数据之前立即创建一些图表。此外,一旦启动项目,就可以在每次迭代中的步骤之间移动。图1.3大致显示了上述步骤的关系,注意它们不一定按照上面列出的顺序执行。
1.4.1 识别问题
没有清晰简洁的问题就不会形成洞察力,也没有办法衡量在运行你最喜欢的机器学习算法后得到的答案是成功的还是失败的。这不像获取一个数据集并进行信息分析后形成一幅点位图那么简单。相反,需要通过问题引导出在解决这些问题时可能有用的数据集以及这些数据集能发挥多大作用。
另一件需要牢记的事情是,尽管我们可以将问题封装在单个问题中,但在许多情况下,将其分解为可以更直接的方式处理的较小部分要容易得多。此外,在每次迭代中,可能会有更多的更小或更大的后续问题也需要答案。记住,这是一个反复的过程!
- 点赞
- 收藏
- 关注作者
评论(0)