- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《Spark机器学习进阶实战》——3构建分类模型

华章计算机发表于 2019/05/31 01:47:31 2019/05/31

【摘要】本书摘自《Spark机器学习进阶实战》——书中的第3章，第3.1节，作者是马海平、于俊、吕昕、向海。

第3章构建分类模型

巧者劳而知者忧，无能者无所求。

—《庄子·列御寇》

灵巧的人多劳累而聪慧的人多忧患，没有能耐的人也就没有什么追求。

庄子把人分为灵巧的人、聪慧的人、没有能耐的人，体现了简单的分类思想。分类是依据历史数据形成刻画事物特征的类识别，进而预测未来数据的归类情况。比如庄子根据前人经验，得出灵巧的人、智慧的人、没有能耐的人的特征，然后根据这些特征对人群进行识别，确定人群分类情况。

本章重点讲解分类模型的常用算法，包括逻辑回归、朴素贝叶斯、SVM模型、决策树模型、K-近邻等，以及如何对分类模型进行效果评估，并使用分类模型进行App数据的分类实现。

3.1　分类模型概述

分类通常是指将事物分成不同的类别，在分类模型中，我们期望根据一组特征来判断事物类别，这些特征代表了物体、事件或上下文相关的属性。

根据类别标签的个数，可以将分类问题划分成二分类问题和多分类问题。例如在论坛中，给定用户和帖子信息，可以判断用户是否会对帖子点赞，点赞的情况对应于类别1（其他情况对应于类别0）。如果仅判断用户是否会对帖子点赞，该问题为二分类问题；如果需要具体判断用户对帖子点赞、点踩、有无互动操作，那么该问题属于多分类问题。

二分类是最简单的分类形式，如图3-1所示，其中样本的特征有两个维度，分别用横坐标X和纵坐标Y表示每一维度的值。通过训练分类模型，使用“x”代表正类，使用“●”代表负类，从而可以将二维空间的样本点正确分开。

图3-1　简单二分类示例

多分类相对二分类而言，分类不止两类。如图3-2所示是一个三分类的例子，符号“x”“●”“■”分别代表不同分类。

图3-2　三分类示例

分类是监督学习的一种形式，可以使用有标签的训练样本训练模型，通过输出结果监督被训练的模型。分类输出离散值，这是和回归问题的区别所在，生活中很多问题都可以转化为分类问题进行求解，如检测信用卡欺诈，对文字、图片、声音、视频等进行分类，对新闻、网页的内容标记类别，互联网业务中判断用户是否为活跃用户等。

在MLlib实现中，支持二分类的模型有SVM模型、逻辑回归、决策树、随机森林、梯度提升树和朴素贝叶斯，而支持多分类的模型有逻辑回归、决策树、随机森林和朴素贝叶斯等。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《Spark机器学习进阶实战》——3构建分类模型

第3章构建分类模型

3.1　分类模型概述

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《Spark机器学习进阶实战》——3构建分类模型

第3章构建分类模型

3.1 分类模型概述

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

3.1　分类模型概述