《机器学习》二刷超详细笔记| 第一章 绪论
【摘要】 笔者在四月份学习完这本西瓜书,一头雾水,觉得机器学习实在太抽象,一直没有入门。开学后上完了必修的《machine learning》这门课,并且自己编程实现了多种算法以及复现论文后,才对机器学习有了一点了解,虽然离入门还有段距离,现在再次翻阅西瓜书,豁然开朗。所以出系列文章,进行回顾,总结和记录! 1、引言我想大家肯定都听过机器学习,作为开场,我们先来了解一下什么是机器学习。我们人都会根据乌...
笔者在四月份学习完这本西瓜书,一头雾水,觉得机器学习实在太抽象,一直没有入门。开学后上完了必修的《machine learning》这门课,并且自己编程实现了多种算法以及复现论文后,才对机器学习有了一点了解,虽然离入门还有段距离,现在再次翻阅西瓜书,豁然开朗。所以出系列文章,进行回顾,总结和记录!
1、引言
我想大家肯定都听过机器学习,作为开场,我们先来了解一下什么是机器学习。
我们人都会根据乌云密布判断今天可能会下雨,今天天气冷要多穿衣服,买西瓜时候会敲敲瓜看看是否浊响,这些都是依据我们自己的生活经验。那么我们能否用计算机来实现上面的过程?
机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“机器学习算法”。
斯坦福大学人工智能教授吴恩达的总结更加简介:
机器学习就是我们获得一些数据,通过计算机建立模型,然后处理新的数据的。
2、基本术语
学习一门学科,专业术语肯定要说对,这是最基本的。
我们先收集一批关于西瓜的数据,例如下面的这些记录,“=”的意思是“取值为”
都可以找到一个点和自己对应,这样一个样本其实也叫做一个“特征向量”。
训练:从数据中获得模型的过程称为“训练”,这个过程提供执行某个机器学习算法(逻辑回归等等)来实现。
训练过程中使用的数据称为“训练数据”,其中每个样本称为“训练样本”,“训练样本”组成的集合称为“训练集”。学习的过程就是将机器每次对事物的假设(hypothesis)和我们的真实(ground-truth)无限逼近。
这里有关于样本的结果的信息,例如“好瓜”就称为“标记”(label),拥有了标记的样本(sample)称为样例(example)。
分类:如果我们预测的是离散值,比如“好瓜”、“坏瓜”,此学习称为分类。
回归:如果我们预测的是连续值,比如西瓜成熟度0.95、0.36,此学习任务称为回归。
二分类:只涉及两个类别的分类任务,其中一个类为正类,另一个为反类,输出一般为{-1,+1}或{0,1}。
多分类:涉及多个类别的分类任务,输出空间一般|y|>2。
测试:学得模型后使用它进行预测的过程,被测试的样本称为“测试样本”(因为测试样本不包含标签)。
根据训练数据是否拥有标记信息,学习任务大致分为两类:
- 监督学习:分类和回归,也就是有导师学习,带着你学。
- 无监督学习:聚类,也就是无导师学习,简称自学。
3、假设空间
归纳是从特殊到一般的“泛化”,演绎是从一般到特殊的“特化”。
从样例中学习,显然是一个归纳的过程,因此机器学习也称归纳学习。
一个西瓜数据集就应该长这样,X1、X2、X3就是输入特征,Y就是标记:
如果只是记住训练样本,不能对新样本进行判断和预测,就叫机械学习。
而我们机器学习不仅是记住,而且还能判断和预测。
4、归纳偏好
机器学习算法在学习过程中会对某种类型假设的偏好,称为“归纳偏好”。简单来理解就是,每个特征对应的权重不同,比如我给色泽设定的权重是0.5,给根蒂设定的权重是0.1,给敲声设定的权重是0.8,那么Y=0.5X1+0.1X2+0.8*X3+b,这里b是常量,代表偏置值,那么X3几乎决定了Y的值。
奥卡姆剃刀:多个假设与观察一致时,选最简单的那个。并且机器学习中,我们认为“更平滑”意味着“更简单”。
“没有免费的午餐”定理:无论学习算法a有多么聪明,学习算法b多么笨拙,它们(对于所有样例)的数学期望都是相同的。
5、发展历程
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
作者其他文章
评论(0)