2._一元线性回归

一元线性回归模型

xx 可以在一定程度上决定 yy, 但由 xx 的值不能准确地确定 yy 的值. 为了研究它们的这种关系, 对 (x,y)(x, y) 进行一系列观测, 得到一个容量为 nn 的样本 ( xx 取一组不完全相同的值): (x1,y1),(x2,y2),,(xn,yn)\left(x_1, y_1\right),\left(x_2, y_2\right), \cdots,\left(x_n, y_n\right), 其中 yiy_ix=xix=x_i 处对随机变量 yy 观察的结果. 每对 (xi,yi)\left(x_i, y_i\right) 在直角坐标系中对应一个点, 把它们标在平面直角坐标系中, 称所得到的图为散点图. 如图 10.1.1 所示.

由图 10.1.1(a)可看出散点大致地围绕一条直线散布, 而图 10.1.1(b)中的散点大致围绕一条抛物线散布, 这就是变量间统计规律性的一种表现. 图片

如果图中的点像图 10.1.1(a)中那样呈直线状, 则表明 yyxx 之间有线性相关关系, 可建立数学模型

y=β0+β1x+ε...(10.1.1)y=\beta_0+\beta_1 x+\varepsilon ...(10.1.1)

来描述它们之间的关系. 因为 xx 不能严格地确定 yy, 故有一误差项 ε\varepsilon, 假设 εN(0,σ2)\varepsilon \sim N\left(0, \sigma^2\right), 相当于对 yy 做这样的正态假设, 对于 xx 的每一个值有 yN(β0+β1x,σ2)y \sim N\left(\beta_0+\beta_1 x, \sigma^2\right), 其中未知数 β0β1\beta_0 、 \beta_1 不依赖于 xx ,式(10.1.1)称为一元线性回归模型(Univariable Linear Regression Model)。

在式 (10.1.1) 中, β0β1\beta_0 、 \beta_1 是待估计参数. 由样本观察值可以获得 β0β1\beta_0 、 \beta_1 的估计 β^0\hat{\beta}_0β^1\hat{\beta}_1, 称

y^=β^0+β^1x...(10.1.2)\hat{y}=\hat{\beta}_0+\hat{\beta}_1 x ...(10.1.2)

yy 关于 xx经验回归函数,简称回归方程,其图形称为回归直线β^1\hat{\beta}_1 称为回归系数. 对于给定 x=x0x=x_0 后,称 y^0=β^0+β^1x0\hat{y}_0=\hat{\beta}_0+\hat{\beta}_1 x_0 为回归值(在不同场合也称其为拟合值和预测值)。

回归系数的最小二乘估计

样本的一组观察值 (x1,y1),(x2,y2),,(xn,yn)\left(x_1, y_1\right),\left(x_2, y_2\right), \cdots,\left(x_n, y_n\right), 对每个 xix_i, 由线性回归方程(10.1.2)可以确定一回归值

y^i=β^0+β^1xi\hat{y}_i=\hat{\beta}_0+\hat{\beta}_1 x_i \text {, }

这个回归值 y^i\hat{y}_i 与实际观察值 yiy_i 之差

yiy^i=yiβ^0β^1xiyiy^i=yi(β^0+β^1xi)y_i-\hat{y}_i=y_i-\hat{\beta}_0-\hat{\beta}_1 x_i \rightarrow y_i-\hat{y}_i=y_i-\left(\hat{\beta}_0+\hat{\beta}_1 x_i\right)

刻画了 yiy_i 与回归直线 y^=β^0+β^1x\hat{y}=\hat{\beta}_0+\hat{\beta}_1 x 的偏离度. 一个自然的想法就是:对所有 xix_i ,若 yiy_iy^i\hat{y}_i 的偏离越小, 则认为直线与所有试验点拟合得越好.

Q(β0,β1)=I=1n(yiβ0β1xi)2,Q\left(\beta_0, \beta_1\right)=\sum_{I=1}^n\left(y_i-\beta_0-\beta_1 x_i\right)^2,

β0\beta_0β1\beta_1 的估计为 β^0β^1\hat{\beta}_0 、 \hat{\beta}_1, 若 β^0β^1\hat{\beta}_0 、 \hat{\beta}_1 满足

Q(β^0,β^1)=minQ(β0,β1),Q\left(\hat{\beta}_0, \hat{\beta}_1\right)=\min Q\left(\beta_0, \beta_1\right),

则称 β^0β^1\hat{\beta}_0 、 \hat{\beta}_1 分别为 β0β1\beta_0 、 \beta_1最小二乘估计 (简记为 LSE). 对任意的 β0\beta_0β1\beta_1, 都有 Q(β0,β1)0Q\left(\beta_0, \beta_1\right) \geqslant 0, 且关于 β0β1\beta_0 、 \beta_1 的导数存在. 因此, 对 Q(β0,β1)Q\left(\beta_0, \beta_1\right) 关 于 β0β1\beta_0 、 \beta_1 求偏导数, 并令其为零, 得

{Qβ0=2i=1n(yiβ0β1xi)=0Qβ1=2i=1n(yiβ0β1xi)xi=0,\left\{\begin{array}{l} \frac{\partial Q}{\partial \beta_0}=-2 \sum_{i=1}^n\left(y_i-\beta_0-\beta_1 x_i\right)=0 \\ \frac{\partial Q}{\partial \beta_1}=-2 \sum_{i=1}^n\left(y_i-\beta_0-\beta_1 x_i\right) x_i=0 \end{array},\right.

整理得

{nβ0+(i=1nxi)β1=i=1nyi(i=1nxi)β0+(i=1nxi2)β1=i=1nxiyi,\left\{\begin{array}{l} n \beta_0+\left(\sum_{i=1}^n x_i\right) \beta_1=\sum_{i=1}^n y_i \\ \left(\sum_{i=1}^n x_i\right) \beta_0+\left(\sum_{i=1}^n x_i^2\right) \beta_1=\sum_{i=1}^n x_i y_i \end{array},\right.

称此为正规方程组, 解正规方程组得

{β^0=yˉxˉβ^1β^1=(i=1nxiyinxˉyˉ)/(i=1nxi2nxˉ2),...(10.1.3)\left\{\begin{array}{l} \hat{\beta}_0=\bar{y}-\bar{x} \hat{\beta}_1 \\ \hat{\beta}_1=\left(\sum_{i=1}^n x_i y_i-n \bar{x} \bar{y}\right) /\left(\sum_{i=1}^n x_i^2-n \bar{x}^2\right), \end{array}\right. ...(10.1.3)

其中 xˉ=1ni=1nxi,yˉ=1ni=1nyi\bar{x}=\frac{1}{n} \sum_{i=1}^n x_i, \bar{y}=\frac{1}{n} \sum_{i=1}^n y_i ,若记

Lxy=i=1n(xixˉ)(yiyˉ)=i=1nxiyinxˉyˉ,Lxx=i=1n(xixˉ)2=i=1nxi2nxˉ2,...(10.1.14)L_{x y}=\sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)=\sum_{i=1}^n x_i y_i-n \bar{x} \bar{y}, \quad L_{x x}=\sum_{i=1}^n\left(x_i-\bar{x}\right)^2=\sum_{i=1}^n x_i^2-n \bar{x}^2, ...(10.1.14)

{β^0=yˉxˉβ^1β^1=Lxy/Lxx\left\{\begin{array}{l} \hat{\beta}_0=\bar{y}-\bar{x} \hat{\beta}_1 \\ \hat{\beta}_1=L_{x y} / L_{x x} \end{array}\right.

式 (10.1.3) 或 (10.1.4) 称为 β0β1\beta_0 、 \beta_1 的最小二乘估计. 于是, 所求的线性回归方程为

y^=β^0+β^1x,...(10.1.5)\hat{y}=\hat{\beta}_0+\hat{\beta}_1 x, ...(10.1.5)

若将 β^0=yˉxˉβ^1\hat{\beta}_0=\bar{y}-\bar{x} \hat{\beta}_1 代入上式,则线性回归方程亦可表示为

y^=yˉ+β^1(xxˉ)....(10.1.16)\hat{y}=\bar{y}+\hat{\beta}_1(x-\bar{x}) . ...(10.1.16)

式(10.1.6)表明,回归直线通过由样本观察值 (x1,y1),(x2,y2),,(xn,yn)\left(x_1, y_1\right),\left(x_2, y_2\right), \cdots,\left(x_n, y_n\right) 确定的散点图的几何中心 (xˉ,yˉ)(\bar{x}, \bar{y}). 回归直线是一条斜率为 β^1\hat{\beta}_1 且过点 (xˉ,yˉ)(\bar{x}, \bar{y}) 的直线.

对于最小二乘估计, 还可以得到一个很重要的结论.

定理

β^0β^1\hat{\beta}_0 、 \hat{\beta}_1β0β1\beta_0 、 \beta_1 的最小二乘估计, 则 β^0β^1\hat{\beta}_0 、 \hat{\beta}_1 分别是 β0β1\beta_0 、 \beta_1 的无偏估计, 且

β^0N(β0,σ2(1n+xˉ2Lxx)),β^1N(β1,σ2Lxx).\hat{\beta}_0 \sim N\left(\beta_0, \sigma^2\left(\frac{1}{n}+\frac{\bar{x}^2}{L_{x x}}\right)\right), \quad \hat{\beta}_1 \sim N\left(\beta_1, \frac{\sigma^2}{L_{x x}}\right) .

证明 略.

为了研究某一化学反应过程中温度 x 对产品得率 y 的影响.测得数据如下: 图片

求产品得率 y 关于温度 x 的回归方程. 解 为了方便,列出如下的计算表格 图片

xˉ=110×1450=145,yˉ=110×673=67.3\bar{x}=\frac{1}{10} \times 1450=145, \bar{y}=\frac{1}{10} \times 673=67.3,

Lxx=i=110xi210xˉ2=21850010×(145)2=8250,Lxy=i=110xiyi10xˉyˉ=10157010×145×67.3=3985,\begin{gathered} L_{x x}=\sum_{i=1}^{10} x_i^2-10 \bar{x}^2=218500-10 \times(145)^2=8250, \\ L_{x y}=\sum_{i=1}^{10} x_i y_i-10 \bar{x} \bar{y}=101570-10 \times 145 \times 67.3=3985, \end{gathered}

从而 β^1=LxyLxx=39808250=0.483,β^0=yˉxˉβ^1=67.3145×0.483=2.735\hat{\beta}_1=\frac{L_{x y}}{L_{x x}}=\frac{3980}{8250}=0.483, \hat{\beta}_0=\bar{y}-\bar{x} \hat{\beta}_1=67.3-145 \times 0.483=-2.735, 所以回归直线方程为 y^=2.735+0.483x\hat{y}=-2.735+0.483 x.

对于非线性问题转换为线性问题最常用的是取对数,例如 y=exy=e^x 这是一个指数函数,取对数后变为 lny=xlny=x,如果令y^=lny,x^=x\hat{y}=lny,\hat{x}=x ,则原本指数函数就会变成线性函数 y^=x^\hat{y}=\hat{x} ,在高中阶段学习的一元线性回归应用例题2 就演示了此方法