机器学习概述

举报
大鹏爱学习 发表于 2022/10/17 18:04:36 2022/10/17
【摘要】 概述机器学习应用场景:属性预测,价值评估,客户分层,异常检测,疾病检测,风险管理,个性化推荐,垃圾信息识别,智能排序,等级评分,流失预警,文本识别,图像识别,量化交易分析,用户画像,路径优化,店铺选址,资源优化,作诗作歌词,恶意软件识别,精准营销,智能投顾,搜索优化,诈骗检测,关联匹配等等。机器学习算法划分:一、监督学习:分类,回归,排序,匹配二、半监督学习:协同训练三、无监督学习:聚类,关...

概述

机器学习应用场景:
属性预测,价值评估,客户分层,异常检测,疾病检测,风险管理,个性化推荐,垃圾信息识别,
智能排序,等级评分,流失预警,文本识别,图像识别,量化交易分析,用户画像,路径优化,
店铺选址,资源优化,作诗作歌词,恶意软件识别,精准营销,智能投顾,搜索优化,诈骗检测,关联匹配等等。


机器学习算法划分:
一、监督学习:分类,回归,排序,匹配
二、半监督学习:协同训练
三、无监督学习:聚类,关联规则
四、强化学习:PPO、A2C/A3C


机器学习一般过程;
数据采集-->数据处理-->选择建模算法-->结果实施


有监督学习常见算法:
线性回归、逻辑回归、KNN、朴素贝叶斯、SVM、决策树、集成算法、Bagging、随机森林、Boosting、
Adaboost、GBDT、Xgboost

无监督学习常见算法:
K-Means、DBSCAN、Aprior

术语和概念
数据集:训练集\验证集\测试集,训练模型的数据集合
样本/示例:行Record,一个事件或对象
属性/特征:列feature,性质
样本空间:属性长成的空间
训练数据/训练样本:模型训练
学习/训练:从数据集中学得模型的过程
模型/学习器:训练后的结果
模型评价:评估模型性能优劣过程
目标函数:算法学习后得到的参数、阈值、比例等构成的函数
损失函数/代价函数:评估原始数据与预测数据差距的函数评估模型效果
偏差:算法的期望预测与真实值之间的偏差程度,反映了模型本身的拟合能力。
方差:方差度量了同等大小训练集的变动导致学习性能的变化,刻画了数据扰动导致的影响。
泛化能力:机器学习的目标是使学得的模型能够很好地适用于新的样本,而不是仅仅在训练
样本上工作的很好,学得的模型适用于新样本的能力称为泛化能力。
误差:学习到的模型在样本上的预测结果与样本的真实结果之间的差。训练误差是在训练集上的误差,泛化误差是在新样本上的误差。
过拟合:
欠拟合:

1.Adaboost

AdaBoost(Adaptive Boosting,自适应提升):算法原理是将多个弱学习器进行合理的结合,使其成为一个强学习器。
AdaBoost采用迭代的思想,继承了Boosting算法,每次迭代只训练一个弱学习器,训练好的弱学习器将参与下一次迭代。也就是说,
在第N次迭代中,一共有N个弱学习器,其中N-1个是以前训练好的,其各种参数都不会改变,本次训练第N个分类器。其中弱学习器
的关系是第N个弱学习器更可能分对前N-1个弱学习器没分对的数据,最终分类输出要看这N个分类器的综合效果。

Adaboost算法优点:
a.分类器有很高精度
b.可以使用很多方法构建子分类器
c.简单
d.不用担心过拟合

2.Boosting

Boosting(提升算法)是一族可以由弱学习器提升为用来强学习器算法。
工作机制:先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在
后续受到更多的关注,然后基于调整后的样本分布来迭代训练下一个基学习器;如此迭代,直至基学习器达到事先制定的值T,通常根据
它们的分类准确率给予不同的权重,进行加权结合。
一个经典的提升算法例子是Adaboost和Gradient Boost Decision Tree。

Boosting方法可以看做是一个不断迭代训练的方法。首先用初始权重训练一个弱分类器1,根据1的误差来更新训练样本的权重,
正确的样本权重下降,错误样本的权重变高,使得前一个分类器中分类错误的样本在下一个弱分类器训练中得到更多的重视。

Boosting工作方式
第一步:从原始的数据集中创建一个子集。
第二步:最初,所有的数据点都具有相同的权重。
第三步:在此子集上创建基础模型。
第四步:该模型用于对整个数据集进行预测。
第五步:使用实际值和预测值计算误差。
第六步:预测错误的点获得更高的权重。
第七步:创建另一个模型并对数据集进行预测。
第八步:类似地,创建多个模型,每个模型校正先前模型的错误。
第九步:最终模型(强学习器)是所有模型(弱学习器)的加权平均值。
因此Boosting结合了很多弱学习器来形成一个强学习器,单个模型表现不佳,但他们的数据集的某些部分表现很好。因此,每个模型实际上
提升了集成的整体性能。


Boosting提升的理解
提升是一个迭代的过程,用于自适应地改变训练样本的分布,使得基分类器聚焦在那些很难分的样本上。不像bagging,提升给每一个训练
样本赋予一个权值,而且可以在每一轮提升过程结束时自动地调整权值。训练样本的权值可以用于以下方面:
a.可以用作抽样分布,从原始数据集中提取出自主样本集。
b.基学习器可以使用权值学习有利于高权值样本的模型。

Boosting特点
a.框架算法,拥有系列算法
b.提升任意给定算法准确度
c.训练过程为阶梯状
d.所有弱分类器可以是不同类分类器。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。