什么是数据科学?数据科学初学者指南

举报
Donglian Lin 发表于 2021/08/07 09:06:45 2021/08/07
【摘要】 您需要掌握各种硬技能和软技能。您需要擅长统计和数学才能分析和可视化数据。毋庸置疑,机器学习构成了数据科学的核心,需要你擅长它。此外,您需要对您所从事的领域有深入的了解,才能清楚地了解业务问题。您的任务并没有就此结束。您应该能够实现需要良好编码技能的各种算法。最后,一旦您做出了某些关键决策,就必须将它们交付给利益相关者。

随着世界进入大数据时代,对其存储的需求也在增长。直到 2010 年,这是企业行业面临的主要挑战和关注点。主要重点是构建存储数据的框架和解决方案。现在当 Hadoop 等框架成功解决了存储问题后,重点就转移到了这些数据的处理上。数据科学是这里的秘诀。你在好莱坞科幻电影中看到的所有想法实际上都可以通过数据科学变成现实。数据科学是人工智能的未来。因此,了解什么是数据科学以及它如何为您的业务增加价值非常重要。

在本博客中,我将介绍以下主题。

读完这篇博文,您将能够了解什么是数据科学,以及它在从我们周围复杂而庞大的数据集中提取有意义的见解方面的作用。 要获得有关数据科学的深入知识,您可以通过 Edureka 的Python认证培训注册实时数据科学,并提供 24/7 支持和终身访问。

什么是数据科学?

数据科学融合了各种工具、算法和机器学习原理,旨在从原始数据中发现隐藏的模式。但这与统计学家多年来所做的有何不同?

答案在于解释和预测之间的区别。 

数据分析师与数据科学 - Edureka

从上图可以看出,数据分析师通常通过处理数据历史来解释正在发生的事情。另一方面,数据科学家不仅进行探索性分析以从中发现见解,而且还使用各种先进的机器学习算法来识别未来特定事件的发生。数据科学家会从多个角度查看数据,有时是以前不知道的角度。

因此,数据科学主要用于利用预测性因果分析、规范性分析(预测加决策科学)和机器学习做出决策和预测。

  • 预测因果分析——如果你想要一个可以预测特定事件未来可能性的模型,你需要应用预测因果分析。比方说,如果您以赊销方式提供资金,那么客户在未来按时还款的可能性是您关心的问题。在这里,您可以构建一个模型,该模型可以对客户的付款历史进行预测分析,以预测未来的付款是否会准时进行。
  • 规范性分析:如果您想要一个具有自行决策的智能并能够使用动态参数对其进行修改的模型,那么您当然需要对其进行规范性分析。这个相对较新的领域就是提供建议。换句话说,它不仅预测而且建议一系列规定的行动和相关结果。
    最好的例子是我之前讨论过的谷歌自动驾驶汽车。车辆收集的数据可用于训练自动驾驶汽车。您可以在这些数据上运行算法,为其带来智能。这将使您的汽车做出决定,例如何时转弯、走哪条路何时减速或加速。
  • 用于预测的机器学习——如果你有一家金融公司的交易数据并且需要建立一个模型来确定未来的趋势,那么机器学习算法是最好的选择。这属于监督学习的范式。之所以称为有监督,是因为您已经拥有可以训练机器的数据。例如,可以使用欺诈购买的历史记录来训练欺诈检测模型。
  • 用于模式发现的机器学习- 如果您没有可以进行预测的参数,那么您需要找出数据集中的隐藏模式才能做出有意义的预测。这只不过是无监督模型,因为您没有任何用于分组的预定义标签。用于模式发现的最常用算法是聚类。
    假设您在一家电话公司工作,您需要通过在一个区域内放置信号塔来建立网络。然后,您可以使用聚类技术找到那些塔位置,以确保所有用户都能接收到最佳信号强度。

让我们看看上述方法的比例对于数据分析和数据科学有何不同。如下图所示,数据分析在一定程度上包括描述性分析和预测。另一方面,数据科学更多的是关于预测因果分析和机器学习。

数据科学分析 - Edureka

既然您知道数据科学究竟是什么,那么现在首先找出需要它的原因。

为什么是数据科学?

  • 传统上,我们拥有的数据大多是结构化的、规模较小的数据,可以使用简单的 BI 工具进行分析。与传统系统中主要是结构化的数据不同,今天大多数数据是非结构化或半结构化的。让我们看看下图中的数据趋势,它表明到 2020 年,超过 80% 的数据将是非结构化的。

非结构化数据流 - Edureka

  • 这些数据是从财务日志、文本文件、多媒体表格、传感器和仪器等不同来源生成的。简单的 BI 工具无法处理如此庞大的数量和种类的数据。这就是为什么我们需要更复杂、更先进的分析工具和算法来处理、分析和从中得出有意义的见解。

这并不是数据科学变得如此流行的唯一原因。让我们深入挖掘,看看数据科学是如何在各个领域中使用的。

  • 如果您可以从现有数据中了解客户的确切需求,例如客户过去的浏览历史、购买历史、年龄和收入,那如何?毫无疑问,您之前也拥有所有这些数据,但现在有了海量数据,您可以更有效地训练模型并更准确地向客户推荐产品。它会为您的组织带来更多业务,这难道不是很神奇吗?
  • 让我们以不同的场景来理解数据科学在 决策中的作用。如果您的汽车有智能开车送您回家呢?自动驾驶汽车从传感器收集实时数据,包括雷达、摄像头和激光,以创建其周围环境的地图。基于这些数据,它利用先进的机器学习算法做出决定,例如何时加速、何时减速、何时超车、在哪里转弯。
  • 让我们看看数据科学如何用于预测分析。我们以天气预报为例。可以收集和分析来自船舶、飞机、雷达、卫星的数据以构建模型。这些模型不仅可以预测天气,还有助于预测任何自然灾害的发生。它将帮助您事先采取适当的措施,挽救许多宝贵的生命。

让我们看一下下面的信息图,看看数据科学正在创造印象的所有领域。

数据科学用例 - Edureka

谁是数据科学家?

数据科学家有几个可用的定义。简而言之,数据科学家是实践数据科学艺术的人。“数据科学家”这个词 考虑到数据科学家从科学领域和应用程序(无论是统计学还是数学)中提取大量信息这一事实后创造的。

数据科学家做什么的?

数据科学家是那些凭借在某些科学学科方面的强大专业知识来解决复杂数据问题的人。他们处理与数学、统计学、计算机科学等相关的几个元素(尽管他们可能不是所有这些领域的专家)。他们大量使用最新技术来寻找解决方案并得出对组织成长和发展至关重要的结论。与来自结构化和非结构化形式的原始数据相比,数据科学家以更有用的形式呈现数据。

要了解有关数据科学家的更多信息,您可以参考这篇关于谁是数据科学家?

更进一步,现在让我们讨论 BI。我相信您也可能听说过商业智能 (BI)。数据科学经常与 BI 混淆。我将陈述一些简洁明了的两者之间的对比将有助于您更好地理解。我们来看一下。

Business Intelligence (BI) vs. Data Science

  • 商业智能 (BI) 基本上是分析以前的数据,以发现后见之明和洞察力来描述业务趋势。在这里,BI 使您能够从外部和内部来源获取数据、准备数据、对其运行查询并创建仪表板来回答诸如季度收入分析或业务问题之类的问题。BI 可以在不久的将来评估某些事件的影响。
  • 数据科学是一种更具前瞻性的方法,一种探索性的方法,侧重于分析过去或当前的数据并预测未来的结果,以做出明智的决策。它回答关于“什么”和“如何”事件发生的开放式问题。

让我们来看看一些对比特征。

特征 Business Intelligence (BI) 数据科学
数据源  结构化
(通常是 SQL,通常是数据仓库)
 结构化和非结构化


(日志、云数据、SQL、NoSQL、文本)

方法 统计和可视化 统计学、机器学习、图形分析、神经语言程序设计 (NLP)
重点 过去和现在 现在和未来
工具 Pentaho, Microsoft BI, QlikView, R RapidMiner、BigML、Weka、R

这就是关于什么是数据科学,现在让我们了解数据科学的生命周期。

数据科学项目中的一个常见错误是匆忙进行数据收集和分析,而没有理解需求,甚至没有正确地构建业务问题。因此,遵循数据科学整个生命周期的所有阶段对您来说非常重要,以确保项目的顺利运行。

数据科学的生命周期

以下是数据科学生命周期主要阶段的简要概述:

数据科学的生命周期 - Edureka

数据科学的发现 - Edureka阶段 1 — 发现: 在开始项目之前,了解各种规格、要求、优先级和所需预算非常重要。您必须具备提出正确问题的能力。 在这里,您评估您是否拥有支持项目所需的人员、技术、时间和数据资源。 在此阶段,您还需要构建业务问题并制定初始假设 (IH) 进行测试。

数据科学数据准备 - Edureka阶段 2 - 数据准备: 在此阶段,您需要分析沙箱,您可以在其中执行整个项目持续时间的分析。您需要在建模之前探索、预处理和调整数据。此外,您将执行 ETLT(提取、转换、加载和转换)以将数据放入沙箱。让我们看看下面的统计分析流程。

数据科学的生命周期

您可以使用 R 进行数据清理、转换和可视化。这将帮助您发现异常值并建立变量之间的关系。 清理并准备好数据后,就可以对其进行探索性分析了。让我们看看如何实现这一目标。

阶段 3 — 模型规划: 数据科学模型规划 - Edureka在这里,您将确定绘制变量之间关系的方法和技术。 这些关系将为您将在下一阶段实施的算法奠定基础。 您将使用各种统计公式和可视化工具应用探索性数据分析 (EDA)。

  让我们来看看各种模型规划工具。

数据科学中的模型规划工具 - Edureka

  1. R拥有一套完整的建模能力,为构建解释性模型提供了良好的环境。
  2. SQL 分析服务可以使用常见的数据挖掘功能和基本预测模型执行数据库内分析。
  3. SAS/ACCESS  可用于访问来自 Hadoop 的数据,并用于创建可重复和可重用的模型流程图。

虽然市场上有很多工具,但 R 是最常用的工具。

现在您已经了解了数据的性质并决定了要使用的算法。在下一阶段,您将应用算法并建立模型。

数据科学模型构建 - Edureka第 4 阶段 - 模型构建:在此阶段,您将开发用于训练和测试目的的数据集。在这里,您需要考虑您现有的工具是否足以运行模型,还是需要更强大的环境(如快速并行处理)。 您将分析各种学习技术(如分类、关联和聚类)以构建模型。

您可以通过以下工具实现模型构建。

数据科学中的模型构建工具

数据科学操作化 - Edureka在此阶段,您将交付最终报告、简报、代码和技术文档。 此外,有时也会在实时生产环境中实施试点项目。这将使您在全面部署之前清楚地了解小规模的性能和其他相关限制。

          
数据科学中的通信 - Edureka第 6 阶段——交流结果: 
现在重要的是评估您是否能够实现您在第一阶段计划的目标。因此,在最后一个阶段,您确定所有关键发现,与利益相关者沟通并确定结果是否 根据第一阶段制定的标准,项目的成功或失败。

现在,我将通过一个案例研究向您解释上述各个阶段。

案例研究:糖尿病预防

如果我们可以预测糖尿病的发生并提前采取适当的措施来预防它会怎样?
在这个用例中,我们将利用我们之前讨论的整个生命周期来预测糖尿病的发生。让我们来看看各个步骤。

第1步:

  • 首先,我们将根据第 1 阶段中讨论的患者病史收集数据。您可以参考下面的示例数据。

数据科学示例数据 - Edureka

  • 如您所见,我们具有如下所述的各种属性。

 属性:

  1. npreg – 怀孕的次数
  2. 葡萄糖 – 血浆葡萄糖浓度
  3. bp——血压
  4. 皮肤——三头肌皮褶厚度
  5. bmi – 体重指数
  6. ped——糖尿病谱系函数
  7. 年龄——年龄
  8. 收入 – 收入

第2步:

  • 现在,一旦我们有了数据,我们就需要清理和准备数据以进行数据分析。
  • 这些数据有很多不一致的地方,如缺失值、空白列、突变值和不正确的数据格式需要清理。
  • 在这里,我们将数据组织到不同属性下的单个表中 - 使其看起来更加结构化。
  • 让我们看看下面的示例数据。

数据科学不一致的数据 - Edureka

这个数据有很多不一致之处。

  1. npreg列中,“one”是用文字写的,而它应该是像 1 这样的数字形式。
  2. bp列中,其中一个值是 6600,这是不可能的(至少对人类而言), 因为 bp 无法达到如此大的值。
  3. 如您所见,收入列是空白的,在预测糖尿病方面也毫无意义。因此,把它放在这里是多余的,应该从表中删除。
  • 因此,我们将通过删除异常值、填充空值和规范化数据类型来清理和预处理这些数据。如果您还记得,这是我们的第二阶段,即数据预处理。
  • 最后,我们得到如下所示的干净数据,可用于分析。

数据科学一致性数据 - Edureka

第 3 步:

现在让我们做一些分析,正如前面在第 3 阶段中所讨论的那样。

  • 首先,我们将数据加载到分析沙箱中,并对其应用各种统计函数。例如,R 具有像describe这样的函数,它为我们提供了缺失值和唯一值的数量。我们还可以使用汇总函数,该函数将为我们提供统计信息,如均值、中值、范围、最小值和最大值。
  • 然后,我们使用直方图、折线图、箱线图等可视化技术来了解数据的分布情况。

数据科学可视化 - Edureka

第四步:

现在,基于从上一步得出的见解,最适合此类问题的是决策树。让我们看看如何?

  • 因为,我们已经有了npreg、bmi等主要的分析属性,所以我们将在这里使用监督学习技术来构建 模型。
  • 此外,我们特别使用了决策树,因为它一次性考虑了所有属性,例如具有线性关系的属性以及具有非线性关系的属性。在我们的例子中,我们有npregage之间的线性关系npregped之间有非线性关系。
  • 决策树模型也非常健壮,因为我们可以使用不同的属性组合来制作各种树,然后最终以最高效率实现。

让我们看看我们的决策树。

设计树数据集

在这里,最重要的参数是葡萄糖水平,因此它是我们的根节点。现在,当前节点及其值确定要采用的下一个重要参数。它一直持续到我们得到posneg的结果。Pos 表示患糖尿病的倾向为正,neg 表示患糖尿病的倾向为负。

如果您想了解有关决策树实现的更多信息,请参阅此博客How To Create A Perfect Decision Tree

第 5 步:

在这个阶段,我们将运行一个小型试点项目来检查我们的结果是否合适。如果有的话,我们还将寻找性能限制。如果结果不准确,那么我们需要重新规划和重建模型。

第 6 步:

成功执行项目后,我们将共享输出以进行全面部署。

成为数据科学家说起来容易做起来难。那么,让我们看看成为数据科学家所需的一切。  数据科学家基本上需要来自三个主要领域的技能 ,如下所示。

数据科学技能 - Edureka

如上图所示,您需要掌握各种硬技能和软技能。您需要擅长统计数学才能分析和可视化数据。毋庸置疑,机器学习构成了数据科学的核心,需要你擅长它。此外,您需要对您所从事的领域有深入的了解,才能清楚地了解业务问题。您的任务并没有就此结束。您应该能够实现需要良好编码技能的各种算法。最后,一旦您做出了某些关键决策,就必须将它们交付给利益相关者。所以,良好的沟通 肯定会为您的技能增加布朗尼点数。

我强烈建议您观看这个数据科学视频教程,它解释了什么是数据科学以及我们在博客中讨论的所有内容。来吧,享受视频,告诉我你的想法。

什么是数据科学?数据科学课程——初学者的数据科学教程 | 埃德瑞卡


此 Edureka 数据科学课程视频将带您了解数据科学的需求、什么是数据科学、数据科学业务用例、BI 与数据科学、数据分析工具、数据科学生命周期以及演示。

最后,说未来属于数据科学家并没有错。预计到 2018 年底,大约需要 100 万名数据科学家。越来越多的数据将为推动关键业务决策提供机会。它很快就会改变我们看待充斥着周围数据的世界的方式。因此,数据科学家应该具有高度的技能和积极性来解决最复杂的问题。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。