机器学习实战笔记一——概述

举报
KevinQ 发表于 2022/03/15 17:55:58 2022/03/15
【摘要】 夫战,勇气也,一鼓作气,再而衰,三而竭,彼竭我盈,故克之。——左传 · 曹秽论战 机器学习概述机器学习的真实含义是,利用计算机来彰显数据背后的真实含义。机器学习就是把无序的数据转换成有用的信息。如何从移动计算和传感器产生的海量数据中抽取有价值的信息是一个重要课题,大量的经济活动都依赖于信息。机器学习的主要任务就是分类(数据划分)、回归(数值预测)。机器学习中的常用术语:特征,目标变量,训练集...

夫战,勇气也,一鼓作气,再而衰,三而竭,彼竭我盈,故克之。——左传 · 曹秽论战

机器学习概述

机器学习的真实含义是,利用计算机来彰显数据背后的真实含义。

机器学习就是把无序的数据转换成有用的信息。如何从移动计算和传感器产生的海量数据中抽取有价值的信息是一个重要课题,大量的经济活动都依赖于信息。

机器学习的主要任务就是分类(数据划分)、回归(数值预测)。

机器学习中的常用术语:特征,目标变量,训练集,测试集,知识表示。

特征是所采集的某几项属性值,大量已知结果的数据就是训练集目标变量是机器学习算法的预测结果。在分类算法中目标变量通常是标称型的,回归算法中通常是连续型的。分类问题中的目标变量也被称为类别。并假定分类问题只存在有限个数的类别。

测试集是用来检测机器学习算法的效果的。一个效果达到预期的机器学习算法可以称之为某一个问题的知识表示

监督学习:分类、回归等知道预测什么的问题,属于监督学习。

无监督学习:即数据没有目标变量,不给定目标值。在无监督学习中,将数据按照相似程度划分为多个类的过程称为聚类,将寻找描述数据统计值的过程称为密度估计。

image-20220315162916575.png

选择机器学习算法需要清楚的两个问题:

  1. 算法的目的是什么,完成何种任务?

    有预测目标值:监督学习算法;否则无监督学习算法。

    目标变量为离散型:分类器算法;

    目标变量为连续型:回归算法;

    将数据分组:聚类算法;

    估计数据与分组的相似程度:密度估计算法。

  2. 需要分析或收集的数据是什么?

    特征值是离散型还是连续型,特征值是否存在缺失的值,数据中是否存在异常值,某个特征发生的频率如何。

一般说来发现最好算法的关键环节是反复试错的迭代过程。

开发机器学习应用程序的步骤

  1. 收集数据:爬虫、传感器、公开数据。
  2. 准备输入数据:保证数据格式符合算法要求。
  3. 分析输入数据:识别异常值、空值,可以通过图像图形来展示数据。这一步是确保数据集中没有垃圾数据。
  4. 训练算法:将数据输入算法,从中抽取知识或信息。
  5. 测试算法:使用测试集测试效果,若不满意则需要回到第4步甚至第1步。
  6. 使用算法:在实际环境中使用。

为什么使用Python

语法清晰;易于操作纯文本文件;使用广泛。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。