《西瓜书》吃瓜笔记1、2章-1

举报
irrational 发表于 2022/01/18 00:57:11 2022/01/18
【摘要】 基本术语 模型: 从数据中学到的结果(泛指) 学习算法: 使用计算机从数据中产生“模型”的算法 属性: 反应事件或对象在某方面的表现或性质的事项 记录: 一组属性对应取值的实例 样本: 每条...

基本术语

模型: 从数据中学到的结果(泛指)

学习算法: 使用计算机从数据中产生“模型”的算法

属性: 反应事件或对象在某方面的表现或性质的事项

记录: 一组属性对应取值的实例

样本: 每条记录是关于一个事件或对象的描述

数据集: 一组这样的记录或样本称为数据集

属性空间: 一组这样的属性组成的空间我们称为属性空间,或者样本空间(属性值我们可以类比坐标轴上的 x,y,z)

维数: 一组属性的个数

特征向量: 对应坐标轴上的一个点(向量),其实就是一个样本,一条记录

标记: 训练样本的结果信息

下面在来看一下机器学习中另外的一些术语:

假设: 由训练集到模型的一种映射

假设空间: 由训练集到所有模型(样本空间)的所有映射

版本空间: 在实际生活中,我们在假设空间中进行搜索,可能会存在多个假设与训练集一致,这样的多个假设就成为“版本空间”

归纳偏好: 在上述版本空间中,出现了多个假设与训练集一致,这时我们必须选出一个最佳的假设,我们心中这个”最佳的“标准就是我们所说的偏好。

学习/训练: 通过使用之前提到的学习算法,将由训练集获得模型的这个过程;也是在假设空间中进行搜索,找到对应的假设的过程。

监督学习:

无监督学习: 训练数据中不含有标记信息,对于不含标记信息的训练样本,我们也希望可以得到它的模型,对于这种能力我们称之为 “泛化能力”

文中基本术语学习 源自《机器学习》——周志华老师

完成数据建模后,如何衡量模型的效果?有很多种评价指标,侧重点不同,需要结合实际问题或场景来选用。建模是一个循环调试的过程,如果评价指标选得不好,调试的方向不对,最终可能评价指标得分很高,但是偏离了建模的初衷。

  • 错误率error rate。(FP+FN)/(TP+TN+FP+FN),对于所有样本,预测错误的比例。
  • 精度accuracy。(TP+TN)/(TP+TN+FP+FN),对于所有样本,预测正确的比例。

精度=1-错误率。精度指标的局限性在于:当样本存在类别不平衡时,占比大的类别会成为主要影响因素。例如1000个人里面只有10个新冠阳性患者,如果模型什么都不做,直接把所有人预测为阴性,精度就是990/1000=99%,非常高,但这是没有意义的,甚至会造成误导。

  • 查准率precision。TP/(TP+FP),对于预测为正的样本,预测正确的比例。也叫准确率,为了避免中文翻译造成的困扰,要区分精度accuracy和查准率precision,最好直接用英文或者带上英文。
  • 查全率recall。TP/(TP+FN),对于真实为正的样本,预测正确的比例。也叫召回率。

precision和recall是既矛盾又统一的两个指标,为了提高precision,模型会在更高的阈值,即更有把握的情况下才把样本预测为正,这样会因为保守而漏掉了“没有把握”的正样本,导致recall降低。通俗点说,查全率就是“宁愿杀错,不要放过”,而查准率就是“宁愿放过,不要杀错”。

  • P-R曲线。通过将判断阈值从高到低移动而生成的。对类别不平衡问题会比较敏感,当训练集和测试集分布不一样时,曲线的变动会很大。
  • F1score。2*P*R/(P+R),P和R的调和平均数,跟算术平均、几何平均相比,更重视较小值。如果想增加某个指标的重要度,则给它加个调节参数,变成一般形式Fβ。当β>1时查全率有更大的影响;β<1时查准率有更大影响。
  • ROC曲线。受试者工作特征曲线,起源于军事领域,后来在医学领域和机器学习领域应用广泛,其名称就是来自于医学领域。ROC反映的是模型对正负样本的排序能力。

相比P-R曲线,ROC曲线有一个特点,当正负样本的分布发生变化时,ROC曲线的形状能够基本保持不变,而P-R曲线的形状一般会发生较剧烈的变化。这个特点让ROC曲线能够尽量降低不同测试集带来的干扰,更加客观地衡量模型本身的性能

  • AUC。定义为ROC曲线下的面积。因为ROC曲线在很多时候不能清晰地说明哪个分类器的效果更好,而AUC作为一个数值,和模型预测的概率绝对值无关,它只关注样本间的排序效果,其值越大代表模型的效果越好。
  • 代价函数。某些场景中,错误的代价不同时怎么办?采用代价敏感错误率
  • logloss。用于评价分类器的概率输出。

文章来源: blog.csdn.net,作者:irrationality,版权归原作者所有,如需转载,请联系作者。

原文链接:blog.csdn.net/weixin_54227557/article/details/122507791

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。