《数据科学与分析:Python语言实现》 —1.4 从数据到洞察力:数据科学工作流

举报
华章计算机 发表于 2020/02/15 18:48:38 2020/02/15
【摘要】 本节书摘来自华章计算机《数据科学与分析:Python语言实现》 一书中第1章,第1.4.1节,作者是[英]赫苏斯·罗格尔–萨拉查(Jesús Rogel-Salazar),白 皓 刘江一 上官明乔 刁 娟 译。

1.4 从数据到洞察力:数据科学工作流

正如我们所看到的,数据科学家是一个有趣的角色,有时也是一个具有挑战性的角色。无论团队还是个人,不仅需要正确的技能组合,还需要正确的工具和商业问题。在这一节中,我们将讨论数据科学项目可能遵循的步骤。需要强调的是,尽管我们对各个步骤已经进行了归类和排序,但是实际工作流并不一定是线性的,正如在图1.3中展示的那样。

 image.png

图1.3 数据科学工作流中涉及的各个步骤

具备新组建的数据科学团队和各种正确的技能组合后,我们已准备好解决问题,现在应该确定项目成功的关键衡量标准。此外,从一开始我们就应该意识到,在大多数情况下,不会有唯一的、最终的答案。因此,最好将问题框架转化为迭代过程,在每个迭代过程中得到更好的解决方案。数据科学工作流中的各个步骤包括:

  • 问题识别

  • 数据获取

  • 数据挖掘

  • 模型构建

  • 表征

  • 交互

上述步骤按照该顺序列出,但并不意味着它们必须一个接一个地进行。在某些情况下,可以由使用内部数据集开始,甚至可在清理数据之前立即创建一些图表。此外,一旦启动项目,就可以在每次迭代中的步骤之间移动。图1.3大致显示了上述步骤的关系,注意它们不一定按照上面列出的顺序执行。

1.4.1 识别问题

没有清晰简洁的问题就不会形成洞察力,也没有办法衡量在运行你最喜欢的机器学习算法后得到的答案是成功的还是失败的。这不像获取一个数据集并进行信息分析后形成一幅点位图那么简单。相反,需要通过问题引导出在解决这些问题时可能有用的数据集以及这些数据集能发挥多大作用。

另一件需要牢记的事情是,尽管我们可以将问题封装在单个问题中,但在许多情况下,将其分解为可以更直接的方式处理的较小部分要容易得多。此外,在每次迭代中,可能会有更多的更小或更大的后续问题也需要答案。记住,这是一个反复的过程!


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。