机器学习算法分类
● 线性回归(LinearRegression):拟合自变量和因变量线性关系的统计分析方法,常用最小二乘法来求解参数。
● 多项式回归(Polynomial Regression):自变量次数大于1,但具体的次数选择往往要依靠经验,次数太高容易过拟合。
● 朴素贝叶斯(NativeBayes,NB):由贝叶斯公式得到的分类器,通过计算后验概率来分类。
● 支持向量机(SupportVector Machine,SVM):在较长一段时间被誉为二值分类问题最佳的模型。通过核函数映射,将低维线性不可分的数据集映射到高维,使其线性可分,并使分类界面间隔最大。算法求解过程用到了二次规划、拉格朗日乘子法、KKT条件、对偶问题、SMO算法等。SVM算法善于处理小样本问题。
● K近邻(K-Nearest Neighbors,KNN):基于实例的算法,通过距离公式来寻找相似样本来做回归预测,依赖于样本数据的质和量,算法很成熟但计算量较大,因此后来又提出了KD树的方法。有关KD树的介绍和详解,点击这里
● 决策树(Decision Trees,DT):直观运用概率的图解方法,按特征来生成决策树,使目标期望达到最大,实际使用过程特征选择方式和决策树的修剪是关键。决策树算法包括迭代二叉树(IterativeDichotomiser 3,ID3)、C4.5和CART(ClassificationAnd Regression Tree)等衍生算法。
● 模型融合算法(Ensemble Algorithms),这类的算法包括:
Bagging(Bootstrap aggregation):每次从样本集随机采样来训练弱分类器,重复多次,最后用投票的方式(分类)或求均值(回归)得到最后结果。
随机森林(RandomForest)*:随机构造很多的CART(由树组成森林),模型关键参数是树个数目和树节点输入特征的个数(总特征树的子集,随机选取),通过综合决策树的结果得到分类结果。
● 自适应提升方法(AdaptiveBoosting):采用赋权的方式,先设置初始权重,然后每个弱分类器训练完根据效果改变权重,训练失败的样!
- 点赞
- 收藏
- 关注作者
评论(0)