《scikit-learn机器学习常用算法原理及编程实战》—1.3 机器学习的分类
1.3 机器学习的分类
机器学习可以分成以下两类。
有监督学习(Supervised learning)通过大量已知的输入和输出相配对的数据,让计算机从中学习出规律,从而能针对一个新的输入做出合理的输出预测。比如,我们有大量不同特征(面积、地理位置、朝向、开发商等)的房子的价格数据,通过学习这些数据,预测一个已知特征的房子价格,这种称为回归学习(Regression learning),即输出结果是一个具体的数值,它的预测模型是一个连续的函数。再比如我们有大量的邮件,每个邮件都已经标记是否是垃圾邮件。通过学习这些已标记的邮件数据,最后得出一个模型,这个模型对新的邮件,能准确地判断出该邮件是否是垃圾邮件,这种称为分类学习(Classfication learning),即输出结果是离散的,即要么输出1表示是垃圾邮件,要么输出0表示不是垃圾邮件。
无监督学习(Unsupervised learning)通过学习大量的无标记的数据,去分析出数据本身的内在特点和结构。比如,我们有大量的用户购物的历史记录信息,从数据中去分析用户的不同类别。针对这个问题,我们最终能划分几个类别?每个类别有哪些特点?我们事先是不知道的。这个称为聚类(Clustering)。这里需要特别注意和有监督学习里的分类的区别,分类问题是我们已经知道了有哪几种类别;而聚类问题,是我们在分析数据之前其实是不知道有哪些类别的。即分类问题是在已知答案里选择一个,而聚类问题的答案是未知的,需要利用算法从数据里挖掘出数据的特点和结构。
网络上流传一个阴谋论:如果你是一个很好说话的人,网购时收到有瑕疵的商品的概率会比较高。为什么呢?理由是电商库存里会有一部分有小瑕疵但不影响使用的商品,为了保证这些商品顺利地卖出去并且不影响用户体验,不被用户投诉,他们会把有瑕疵的商品卖给那些很好说话的人。可问题是,哪些人是好说话的人呢?一个最简单的方法是直接把有小瑕疵的商品寄给一个用户,如果这个用户没有投诉或退货,并且还给出了好评,就说明他是个好说话的人。还可以通过机器学习来优化这一过程。电商网站有你的大量交易记录和行为记录,如果你从来没有投诉过,买之前也不会和卖家沟通太久,买之后也没有上网评价,或者全部给好评,那么机器学习算法从你的行为特征中会判定你为“好对付”的人。这样你就成了电商们的瑕疵商品的倾销对象了。在这个案例中,电商通过用户的行为和交易数据,分析出不同的用户特点,如哪些人是“老实”人、哪些人是有车一族、哪些人是“土豪”、哪些人家里有小孩等。这就属于无监督学习的聚类问题。
这两种机器学习类别的最大区别是,有监督学习的训练数据里有已知的结果来“监督”;而无监督学习的训练数据里没有结果“监督”,不知道到底能分析出什么样的结果。
- 点赞
- 收藏
- 关注作者
评论(0)