《机器学习》二刷超详细笔记|第三章 线性模型

举报
振华OPPO 发表于 2022/02/12 21:14:55 2022/02/12
【摘要】 博主在4月学完西瓜书时,一头雾水,觉得还是一知半解。9月开学后上完了必修的《machine learning》课程,并且自己编程实现了多种机器学习算法和论文复现后,才对机器学习有一点了解,现在再次翻阅西瓜书,很多知识点看到都豁然开朗。所以出这一系列文章,对机器学习进行回顾,总结和记录!为大家揭开机器学习的神秘面纱!@TOC 1、基本形式我们在初中学习直线方程时,知道了直线方程的斜截式表示:y...

博主在4月学完西瓜书时,一头雾水,觉得还是一知半解。9月开学后上完了必修的《machine learning》课程,并且自己编程实现了多种机器学习算法和论文复现后,才对机器学习有一点了解,现在再次翻阅西瓜书,很多知识点看到都豁然开朗。所以出这一系列文章,对机器学习进行回顾,总结和记录!为大家揭开机器学习的神秘面纱!

@TOC

1、基本形式

我们在初中学习直线方程时,知道了直线方程的斜截式表示:y=kx+b,其中k是斜率,b是截距,这也是高中解析几何中最常用的式子,其实这一章都在讲直线的表示形式。

线性模型试图学得一个通过属性的线性组合来进行预测的函数。
在这里插入图片描述
其中w=(w1,w2,…wn),就是广为人知的权重因子,b是偏置值。

举个栗子:在西瓜数据集中,学习器学习的模型为:
在这里插入图片描述
那么代表通过色泽、根蒂和敲声来判断瓜好不好,其中根蒂最要紧,而敲声比色泽要重要。

2、线性回归

对于离散属性,若属性间存在序关系,可以通过连续化将其转化为连续值:
  • 比如二值属性“身高”的取值“高”、“矮”可以转化为{1.0,0.0};
  • 比如三值属性“高度”的取值“高”、“中”、“低”可以转化为{1.0,0.5,0.0};
若属性间不存在序关系,假定有k个属性值,则通常转化为k维向量

属性“瓜类”的取值“西瓜”、“南瓜”、“冬瓜”可转化为(1,0,0),(0,1,0),(0,0,1)

在这里插入图片描述
对于w和b的确定,我们一般使用均方误差的方法,基于最常用的欧氏距离。

也就是对于每个属性,计算它预测值和真实值的平方,最后求和,求出使得这个值最小时的w和b。
在这里插入图片描述
在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧式距离最小,也就是尽力去拟合这些样本点。

3、对数几率回归

我们来看下单位阶跃函数,可以看到预测值z大于0就判断为正例,小于0则判为反例,等于0可以任意判别。显然,单位阶跃函数不连续,所以没有反函数。
在这里插入图片描述
再来看下对数几率函数(logistic function):

在这里插入图片描述
让我们看下二者的图像,可以看到对数几率函数是一种“Sigmoid”函数,将z值转化为一个接近0或1的y值。
在这里插入图片描述
本书翻译为“对数几率回归”,但是更广为人知的是“逻辑回归”,虽然名字带有回归,但是它和“线性回归”不同,它是一种分类学习方法。我们通过“极大似然估计法”来估计它的w和b。通过经典的数值优化算法求出其值,比如:共轭梯度法、牛顿法、阻尼牛顿法、FR法等。

4、线性判别分析

现象判别分析,简称LDA,是一种经典的线性学习方法。它的思想非常朴素:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,不同类样例的投影点尽可能远离。
在这里插入图片描述

5、多分类学习

我们通常称分类学习器为“分类器”,生活中的问题不会只局限于二分类问题,还会遇到很多多分类学习任务。有些二分类可以直接推广到多分类,更多情况下,我们都是对多分类任务拆解为若干个二分类任务求解。
最经典的拆分策略有三种:

  1. 一对一(One vs One,简称OvO)
  2. 一对多 (One vs Rest,简称OvR)
  3. 多对多 (Many vs Many,简称MvM)
多分类问题可以看后面具体的学习方法,比如:决策树、朴素贝叶斯、支持向量机、K-NN等。

6、类别不平衡问题

类别不平衡就是指分类任务中不同类别的训练样例数目差别很大的情况。

目前有三种基本策略应对此问题:

  1. 直接对训练集中的反类样例进行“欠采样”,即去除一些反例使得正、反例数目相近,然后再进行学习。
  2. 对训练集中的正样例进行“过采样”,即增加一些正例使得正、反例数目接近,然后再进行学习。
  3. 直接基于原始训练集进行学习,但在进行预测时,将“再缩放”的公式嵌入决策过程,称为“阈值移动”。
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

举报
请填写举报理由
0/200