R 一元线性回归详细介绍

举报
the-order 发表于 2022/04/01 10:18:55 2022/04/01
【摘要】 一元线性回归

@TOC

1 、回归分析介绍

##1.1 回归分析是研究变量间函数关系的一种方法。
变量之间的关系可以表示为方程的形式
• 因变量
• 自变量
• 回归模型的作用
• 预测
• 解释

1.2回归模型

在这里插入图片描述
• Y 因变量
• X1,X2,⋯,Xp 自变量
• p 自变量的个数
• 回归模型近似刻画 Y 和 X1,X2, ⋯,Xp 之间的真实关系

1.3 线性回归模型

在这里插入图片描述
在这里插入图片描述
回归参数值可通过数据集进行估算

1.4模型变换

在这里插入图片描述
• 可线性化的函数
在这里插入图片描述
• 令 X1 = 𝑋,𝑋2 = 𝑋2
在这里插入图片描述
• 可线性化的函数
在这里插入图片描述
• 令 X1 = ln𝑋
在这里插入图片描述

1.5模型设定

• 一元回归模型

   一个因变量
   一个自变量

• 多元回归模型

    一个因变量
    多个自变量

2 拟合方法

• 使用数据估计模型参数时所使用的方法

• 最大似然估计法
• 常用方法,但有争议

• 最小二乘法
• 常用方法 数据需满足一定假设条件

模型拟合
在这里插入图片描述
在这里插入图片描述

3 一元线性回归模型

• 线性模型

在这里插入图片描述

• 𝛽0 截距
• 𝛽1 斜率
• 𝜖 随机误差
• 对 Y 和 X 之间真实关系的近似
随机误差是模型无法解释的部分,即随机误差和越小,模型越好

3.1 最小二乘法

• 思想
• 总的误差平方和达到最小
• 误差的表达式
在这里插入图片描述
• 总的误差平方和
在这里插入图片描述
对表达式求导,导数为0时,有最小值
• 最小化 S 𝛽0 , 𝛽1 ,得到 𝛽0、𝛽1 的估值 መ𝛽0、 መ𝛽1:
在这里插入图片描述
• መ𝛽0、 መ𝛽1 称为 𝛽0、𝛽1 的最小二乘估计

3.2 最小二乘回归直线

在这里插入图片描述
• 最小二乘直线一定存在
• 可能不唯一

在这里插入图片描述

4 模型条件

• 前提
• 线性假定
• 判断 Y 和 X 之间是否存在线性相关性
• 散点图
• 更严格的数量化方法
• 对回归参数 𝛽1 作假设检验

高斯马尔科夫假定:

  1. 线性于参数
  2. 随机抽样
  3. 不存在完全共线性
  4. 误差的条件均值为零
  5. 误差的同方差性
  6. 误差的正态性

5 假设检验

5.1 模型

在这里插入图片描述

• 零假设 H0:𝛽1 = 0 • Y 和 X 之间没有线性关系
• 备择假设 H1:𝛽1 ≠ 0 • Y 和 X 之间存在线性关系
做检验的原因是x与y线性无关,模型只是偶然得到的,并无解释能力

5.2 前提

• 对于 X 的每一个值,所有的 𝜀 d都相互独立,并且服
从均值为 0、方差为 𝜎2 的正态分布。
• 𝜀i ~ 𝑖𝑖𝑑𝑁 0, 𝜎2 ,𝜎2 > 0 。
在 𝜀i ~ 𝑖𝑖𝑑𝑁 0, 𝜎2 前提下
• መ𝛽0、 መ𝛽1 是 𝛽0 和 𝛽1 的无偏估计
在这里插入图片描述
• 𝜎2 的无偏估计
在这里插入图片描述

• SSR 残差(误差)平方和
• n-2 自由度
• 自由度 = 样本中的观测个数 - 待估计的回归参数的个数

• 标准误
• 标准差的估计量

在这里插入图片描述
• s.e(𝛽1 ^)描述斜率的估计精度
• 标准误越小估计精度越高

5.3 t 检验

• 在正态分布假设下
• 零假设 H0:𝛽1 = 0 • 备择假设 H1:𝛽1 ≠ 0 • 检验方法 t 检验
在这里插入图片描述

• 当H0为真时,t1 服从自由度为 n-2 的学生氏 t分布。

• t 检验
• 𝛼 显著性水平
• 双边检验
• 在显著性水平 𝛼 下拒绝 H0
在这里插入图片描述

在这里插入图片描述
• 在显著性水平 𝛼 下拒绝 H0 • 等价的检验准则
• 在显著性水平 𝛼 下拒绝 H0 • 𝑝 𝑡1 服从自由度为n-2的学生氏t分布的随机变量的
绝对值大于 t1 的概率
在这里插入图片描述
• 零假设 H0:𝛽1 = 0 • 备择假设 H1:𝛽1 ≠ 0 • 拒绝零假设 H0 • 𝛽1 很有可能不是零
• 自变量 X 对因变量 Y 的预测效果在统计上是显著的

5.4检验公式

• 零假设 H0:𝛽1 = 𝑎 • 备择假设 H1:𝛽1 ≠ 𝑎 • t 检验
• t1 服从自由度为 n-2 的 t分布
在这里插入图片描述

6 预测

• 两种类型的预测
• 对于任意给定的 x0,计算因变量 Y 的预测值。
• 当 X = x0 ,估计因变量的预测均值 𝜇0 。

6.1 预测y

在这里插入图片描述

6.2 预测 𝜇0

在这里插入图片描述

6.3 预测区间

• 因变量 Y 的区间预测
在这里插入图片描述
• 自变量 𝜇0均值的区间预测
在这里插入图片描述

7 评估

• 评估的标准

  1. t 检验
  2. (X,Y)散点图和相关系数
  3. (Y,Y^)散点图和相关系数
  4. 误差估计

8 模型误差

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
SST = SSE + SSR

• SST = SSE + SSR
• SSE 衡量 X 对 Y 的预测能力
• SSR 衡量预测误差
在这里插入图片描述

9 决定系数

在这里插入图片描述

• 决定系数 R2 • 在 Y 的总变差中能被自变量 X 所解释的部分(所占的
比例)
• 反映了自变量对因变量的解释能力
• R2 ∈【 0,1】
决定系数R^2约大越好,但不能只凭 R ^2说明模型好坏
因为R^2 代表模型的解释度,在测试集情况下吧所有因变量加进去 R^2 就变成1了,此时模型无效

线性回归模型可以理解为
以最小化R方为目标,寻找y和x之间的最佳线性关系

将在下一节使用R全过程实现一元线性回归

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。