机器学习进阶 第一节 第六课
机器学习组成
机器学习 = 模型 + 策略 + 算法
其实机器学习可以表示为: Learning = Representation + Evalution + Optimzation. 机器学习主要由三部分组成, 即: 表示 (模型), 评价 (策略) 和优化 (算法).
表示 (模型): Representation
表示主要做的就是建模, 故可以称为模型. 模型要完成的主要工作是转换: 将实际问题转换成为计算机可以理解的问题, 就是我们平时是的建模. 类似于传统的计算学科中的算法, 数据结构, 如何将实际的问题转换成计算机可以表示的方式. 这部分即 “简单的机器学习算法”. 给定数据, 我们怎么区域选择对应的问题去解决, 选择正确的已有的模型是重要的一步.
评价 (策略): Evalution
评价的目标是判断已建好的模型的优劣. 对于第一步中建好的模型, 评价是一个指标, 用于表示模型的优劣. 这里就会是一些评价的指标以及一些评价函数的设计. 在机器学习中会有针对性的评价指标.
优化: Optimization
优化的目标是评价的函数, 我们是希望能够找到最好的模型, 也就是说评价最高的模型.
开发应用程序的步骤
收集数据
我们可以使用很多方法收集样本护具, 如: 制作网络爬虫从网站上抽取数据, 从 RSS 反馈或者 API 中得到信息, 或设备发送过来的实测数据.
准备输入数据
得到数据之后, 必须确保数据格式符合要求.
分析输入数据
这一步的主要作用是确保数据集中没有垃圾数据. 如果是使用信任的数据来源, 那么可以直接跳过这个步骤.
训练算法
机器学习算法从这一步才正宗开始学习. 如果使用无监督学习算法, 由于不存在目标变量值, 故而也不需要训练算法, 所有与算法相关的内容在测试算法中.
测试算法
这一步将实际运用机器学习得到的知识信息. 当然在这也需要评估结果的准确率, 然后根据需要重新训练你的算法.
使用算法
转化为应用程序, 执行实际任务. 以检验上述步骤是否可以在实际环境中正常工作. 如果碰到新的数据问题, 同样需要重复执行上述的步骤.
数据类型
按照机器学习的数据分类我们可以将数据分成:
- 标称型: 标称型目标变量的结果只在有限目标集中取值, 如真与假 (标称型目标变量主要用于分类)
- 数值型: 数值型目标变量则可以从无限的数值集合中取值, 如 0.100, 42.001 等 (数值型目标变量主要用于回归分析)
按照数据的本身分布特性:
- 离散型
- 连续型
离散型数据
离散型数据: 由记录不同类别个体的数目所得到的数据, 又称计数数据. 所有这些数据全部都是整数, 而且不能再细分, 也不能进一步提高他们的精确度.
连续型数据
变量可以在某个范围内取任意一数, 即变量的取值可以是连续的. 如: 长度, 时间质量等. 这类帧数通常是非整数, 含有小数部分
注: 只要记住一点, 离散型是区间内不可分, 连续型是区间内可分.
机器学习算法分类
分类是监督学习的一个核心问题. 在监督学习中, 当输出变量取有限个离散值时, 预测问题变成为分类问题. 最基础是二分类问题, 即判断是非, 从两个类别中选择一个作为预测结果/
监督学习 (预测)
- 分类: k-近邻算法, 贝叶斯分类, 决策树与随机森林, 逻辑回归, 神经网络
- 回归: 线性回归, 岭回归
- 标注: 隐马科夫模型
无监督学习
聚类: k-means
文章来源: iamarookie.blog.csdn.net,作者:我是小白呀,版权归原作者所有,如需转载,请联系作者。
原文链接:iamarookie.blog.csdn.net/article/details/110802865
- 点赞
- 收藏
- 关注作者
评论(0)