《数据科学与分析：Python语言实现》 —3.3　数据很好，但也需要其他支持

华章计算机发表于 2020/02/15 21:28:22 2020/02/15

【摘要】本节书摘来自华章计算机《数据科学与分析：Python语言实现》一书中第3章，第3.3节，作者是［英］赫苏斯·罗格尔–萨拉查（Jesús Rogel-Salazar），白　皓　刘江一　上官明乔　刁　娟　译。

3.3　数据很好，但也需要其他支持

机器学习可以为我们业务中遇到的问题提供重要洞察力。这样看来，似乎我们需要的是掌握大量数据。数据确实是一类资产，而且必须将数据作为资产处理。鉴于目前的趋势，数据可用性可能不是问题。但是，我们需要评估可用数据是否确实与我们要回答的问题相关。

正如想象的那样，沿着更多数据的路线走下去相当容易。尽管如此，可能的情况是，访问更好的相关数据比拥有所谓的大数据更可取。我坚持认为，我们在改进数据方面所做的任何努力都值得研究和投资。毕竟，我们试图利用的模式只能与我们采用的数据一样好。

具有相关数据优于具有所谓的大数据，特别是在早期阶段。

考虑到这一点，通常情况下，拥有各种各样的数据可能比拥有大量同类数据更重要。基于同样的原因，能够应用各种聪明的算法可能比简单地拥有大量的原始数据更有效。更重要的是，如果所采用的算法是可扩展的，那么添加更多数据可能是一项简单的任务。

我们在上面提到了获得相关数据的必要性、判断何时确实需要相关数据以及何时不需要相关数据。如果我们恰好熟悉生成数据的业务领域，那么可以判断它是否相关。但是，如果没有这样的经验，我们应该通过寻求相关领域有经验的人的帮助来应对这一挑战。拥有专业知识与拥有数据本身一样有价值！

因此，建议在此过程的早期阶段与相关领域的专家进行讨论和研究。在数据科学团队不拥有此类专业知识的情况下尤其如此。

此外，如果我们确实有兴趣从数据中获得洞察力，那么与领域专家和决策者讨论建模阶段的结果也很重要。需要组织这些讨论，同时了解并非所有相关人员都能够对特定机器学习算法的细节进行复杂而冗长的解释。

因此，能够以包容的方式有效地就过程中的主要问题进行沟通是很重要的。只有这样才能实现数据科学过程的真实高效。

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

上滑加载中

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。