【机器学习基础】线性回归模型
线性回归模型
1.线性回归模型
所谓线性回归模型就是指因变量和自变量之间的关系是直线型的。回归分析预测法中最简单和最常用的是线性回归预测法。
在现实世界中,我们常与各种变量打交道,在解决实际问题过程中,我们常常会遇到多个变量同处于一个过程之中,它们之间互相联系、互相制约。最常见的关系有两种:一类为 “确定的关系”即变量间有确定性关系,其关系可用函数表达式表示。例如:路程s,时间t, 与速度v之间有关系式:s=vt 。另外还有一些变量,他们之间也有一定的关系,然而这种关系并不完全确定,不能用函数的形式来表达,在这种关系中至少有一个变量是随机的。例如:人的身高与体重有一定的关系,一般来讲身高高的**重相对大一些.但是它们之间不能用一个确定的表达式表示出来。这种变量之间的关系,我们称之为相关关系。又如环境因素与农作物的产量也有相关关系,因为在相同环境条件下农作物的产量也有区别,也就是说农作物的产量是一个随机变量。回归分析就是研究相关关系的一种数学方法,是寻找不完全确定的变量间的数学关系式并进行统计推断的一种方法。它能帮助我们从一个变量取得的值去估计另一个变量的值。在这种关系中最简单的是线性回归。
2.线性回归的特点
线性回归有以下几个特点:
(1)建模速度快,不需要很复杂的计算,在数据量大的情况下依然运行速度很快。
(2)可以根据系数给出每个变量的理解和解释。
(3)对异常值很敏感。
3.线性回归的应用
线性回归有很多实际用途。分为以下两大类:
(1)如果目标是预测或者映射,线性回归可以用来对观测数据集的和X的值拟合出一个预测模型。当完成这样一个模型以后,对于一个新增的X值,在没有给定与它相配对的y的情况下,可以用这个拟合过的模型预测出一个y值。
(2)给定一个变量y和一些变量X1,...,Xp,这些变量有可能与y相关,线性回归分析可以用来量化y与Xj之间相关性的强度,评估出与y不相关的Xj,并识别出哪些Xj的子集包含了关于y的冗余信息。
流行病学
有关吸烟对死亡率和发病率影响的早期证据来自采用了回归分析的观察性研究。为了在分析观测数据时减少伪相关,除最感兴趣的变量之外,通常研究人员还会在他们的回归模型里包括一些额外变量。例如,假设我们有一个回归模型,在这个回归模型中吸烟行为是我们最感兴趣的独立变量,其相关变量是经数年观察得到的吸烟者寿命。研究人员可能将社会经济地位当成一个额外的独立变量,已确保任何经观察所得的吸烟对寿命的影响不是由于教育或收入差异引起的。然而,我们不可能把所有可能混淆结果的变量都加入到实证分析中。例如,某种不存在的基因可能会增加人死亡的几率,还会让人的吸烟量增加。因此,比起采用观察数据的回归分析得出的结论,随机对照试验常能产生更令人信服的因果关系证据。当可控实验不可行时,回归分析的衍生,如工具变量回归,可尝试用来估计观测数据的因果关系。
金融
资本资产定价模型利用线性回归以及Beta系数的概念分析和计算投资的系统风险。这是从联系投资回报和所有风险性资产回报的模型Beta系数直接得出的。
经济学
线性回归是经济学的主要实证工具。例如,它是用来预测消费支出,固定投资支出,存货投资,一国出口产品的购买,进口支出,要求持有流动性资产,劳动力需求、劳动力供给。
- 点赞
- 收藏
- 关注作者
评论(0)