- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《Spark机器学习进阶实战》——1.3　机器学习分类

华章计算机发表于 2019/05/30 23:53:21 2019/05/30

【摘要】本书摘自《Spark机器学习进阶实战》——书中的第1章，第1.3.1节，作者是马海平、于俊、吕昕、向海。

1.3　机器学习分类

机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时工作中都或多或少会用到机器学习算法。机器学习按照学习形式进行分类，可分为监督学习、无监督学习、半监督学习、强化学习等。区别在于，监督学习需要提供标注的样本集，无监督学习不需要提供标注的样本集，半监督学习需要提供少量标注的样本，而强化学习需要反馈机制。

1.3.1　监督学习

监督学习是利用已标记的有限训练数据集，通过某种学习策略/方法建立一个模型，实现对新数据/实例的标记（分类）/映射。监督学习要求训练样本的分类标签已知，分类标签的精确度越高，样本越具有代表性，学习模型的准确度越高。监督学习在自然语言处理、信息检索、文本挖掘、手写体辨识、垃圾邮件侦测等领域获得了广泛应用。

监督学习的输入是标注分类标签的样本集，通俗地说，就是给定了一组标准答案。监督学习从这样给定了分类标签的样本集中学习出一个函数，当新的数据到来时，就可以根据这个函数预测新数据的分类标签。监督学习过程如图1-5所示。

图1-5　监督学习流程图

在监督学习下，输入数据被称为“训练数据”，每组训练数据有一个明确的标识或结果，如对反垃圾邮件系统中的“垃圾邮件”“非垃圾邮件”分类等。在建立预测模型的时候，监督学习建立一个学习过程，将预测结果与“训练数据”的实际结果进行比较，不断调整预测模型，直到模型的预测结果达到一个预期的准确率。

最典型的监督学习算法包括回归和分类等。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《Spark机器学习进阶实战》——1.3　机器学习分类

1.3　机器学习分类

1.3.1　监督学习

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《Spark机器学习进阶实战》——1.3 机器学习分类

1.3 机器学习分类

1.3.1 监督学习

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

《Spark机器学习进阶实战》——1.3　机器学习分类

1.3　机器学习分类

1.3.1　监督学习