4._预测与控制

预测与控制

在一元线性回归问题中, 若回归方程经检验效果显著, 则这时回归值与实际值拟合得较好,因而可以利用它对因变量 yy 的新观察值 y0y_0 进行点预测或区间预测.

预测问题

由于 xxyy 并非确定性关系,对于任意给定的 x0x_0 ,无法精确知道相应的 y0y_0 值,但可由回归方程计算出一个回归值 y^0=β^0+β^1x0\hat{y}_0=\hat{\beta}_0+\hat{\beta}_1 x_0, 以一定的置信度预测对应的 yy 的观察值的取值范围,也即对 y0y_0 做区间估计,即在一定的显著性水平 α\alpha 下,寻找一个正数 δ\delta ,使 P(y0y^0δ)=1αP\left(\left|y_0-\hat{y}_0\right| \leqslant \delta\right)=1-\alpha, 称区间 [y^0δ,y^0+δ]\left[\hat{y}_0-\delta, \hat{y}_0+\delta\right]y0y_0 的概率为 1α1-\alpha预测区间 (Prediction Interval), 这就是所谓的预测问题.

由定理 10.1.1 可推出,

y0y^0N(0,[1+1n+(x0xˉ)2Lxx]σ2),y_0-\hat{y}_0 \sim N\left(0,\left[1+\frac{1}{n}+\frac{\left(x_0-\bar{x}\right)^2}{L_{x x}}\right] \sigma^2\right),

又因 y0y^0y_0-\hat{y}_0σ^2\hat{\sigma}^2 相互独立, 且

(n2)σ^2σ2χ2(n2)\frac{(n-2) \hat{\sigma}^2}{\sigma^2} \sim \chi^2(n-2)

所以

T=(y0y^0)/[σ^1+1n+(x0xˉ)2Lxx]t(n2),T=\left(y_0-\hat{y}_0\right) /\left[\hat{\sigma} \sqrt{1+\frac{1}{n}+\frac{\left(x_0-\bar{x}\right)^2}{L_{x x}}}\right] \sim t(n-2),

故对给定的显著性水平 α\alpha, 求得

δ=ta/2(n2)σ^1+1n+(x0xˉ)2Lxx.\delta=t_{a / 2}(n-2) \hat{\sigma} \sqrt{1+\frac{1}{n}+\frac{\left(x_0-\bar{x}\right)^2}{L_{x x}}} .

故得 y0y_0 的置信度为 1α1-\alpha 的预测区间为

(y^0ta/2(n2)σ^1+1n+(x0xˉ)2Lxx,y^0+ta/2(n2)σ^1+1n+(x0xˉ)2Lxx).\left(\hat{y}_0-t_{a / 2}(n-2) \hat{\sigma} \sqrt{1+\frac{1}{n}+\frac{\left(x_0-\bar{x}\right)^2}{L_{x x}}}, \hat{y}_0+t_{a / 2}(n-2) \hat{\sigma} \sqrt{1+\frac{1}{n}+\frac{\left(x_0-\bar{x}\right)^2}{L_{x x}}}\right) .

对于给定样本观察值, 可作出曲线

{y1(x)=y^(x)ta/2(n2)σ^1+1n+(x0xˉ)2Lxxy2(x)=y^(x)+ta/2(n2)σ^1+1n+(x0xˉ)2Lxx\left\{\begin{array}{l} y_1(x)=\hat{y}(x)-t_{a / 2}(n-2) \hat{\sigma} \sqrt{1+\frac{1}{n}+\frac{\left(x_0-\bar{x}\right)^2}{L_{x x}}} \\ y_2(x)=\hat{y}(x)+t_{a / 2}(n-2) \hat{\sigma} \sqrt{1+\frac{1}{n}+\frac{\left(x_0-\bar{x}\right)^2}{L_{x x}}} \end{array}\right.

这两条曲线形成包含回归直线 y^=β^0+β^1x\hat{y}=\hat{\beta}_0+\hat{\beta}_1 x 的带形域, 如图 10.2.1 所示, 这一带形域在 x=xˉx=\bar{x} 处最窄, 说明越靠近 xˉ\bar{x}, 预测精度就越高. 而当 x0x_0xˉ\bar{x} 较远时, 置信区域逐渐加宽, 此时精度逐渐下降。

在实际的回归问题中, 当样本容量 nn 很大, 并且 x0x_0 较接近 xˉ\bar{x} 时, 有

1+1n+(x0xˉ)2Lxx1,tα/2(n2)uα/2,\sqrt{1+\frac{1}{n}+\frac{\left(x_0-\bar{x}\right)^2}{L_{x x}}} \approx 1, \quad t_{\alpha / 2}(n-2) \approx u_{\alpha / 2},

y0y_0 的置信度为 1α1-\alpha 的预测区间近似地等于

(y^0ua/2σ^,y^0+ua/2σ^).\left(\hat{y}_0-u_{a / 2} \hat{\sigma}, \hat{y}_0+u_{a / 2} \hat{\sigma}\right) .

特别地, 若取 1α=0.951-\alpha=0.95, 则 y0y_0 的置信度为 0.95 的预测区间为

(y^01.96σ^,y^0+1.96σ^)\left(\hat{y}_0-1.96 \hat{\sigma}, \hat{y}_0+1.96 \hat{\sigma}\right)

1α=0.9971-\alpha=0.997, 则 y0y_0 的置信度为 0.997 的预测区间为

(y^02.97σ^,y^0+2.97σ^).\left(\hat{y}_0-2.97 \hat{\sigma}, \hat{y}_0+2.97 \hat{\sigma}\right) .

由此可以预料,在全部可能出现的 yy 值中,大约有 99.7%99.7 \% 的观测点落在直线 L1:y=L_1: y= β^02.97σ^+β^1x\hat{\beta}_0-2.97 \hat{\sigma}+\hat{\beta}_1 x 与直线 L2:y=β^0+2.97σ^+β^1xL_2: y=\hat{\beta}_0+2.97 \hat{\sigma}+\hat{\beta}_1 x 所夹的带形区域内, 如图 10.2.2 所示. 图片

可见,预测区间意义与置信区间的意义相似,只是后者是对未知参数而言的,前者是对随机变量而言的.

某建材实验室做陶粒混凝土实验室中,考察每立方米混凝土的水泥用量(kg) 对混凝土抗压强度(kg/ 2 cm )的影响,测得下列数据. 图片

(1) 求经验回归方程 y^=β^0+β^1x\hat{y}=\hat{\beta}_0+\hat{\beta}_1 x; (2)检验一元线性回归的显著性( α=0.05\alpha=0.05 ); (3) 设 x0=225kgx_0=225 kg, 求 yy 的预测值及置信度为 0.95 的预测区间.

解 (1) n=12,xˉ=205,Lxx=14300,yˉ=72.6n=12, \bar{x}=205, L_{x x}=14300, \bar{y}=72.6,

Lyy=1323.82,L_{y y}=1323.82,
Lxy=i=1nxiyinxˉyˉ=18294312×205×72.6=4347,L_{x y}=\sum_{i=1}^n x_i y_i-n \bar{x} \bar{y}=182943-12 \times 205 \times 72.6=4347,

β^1=Lxy/Lxx=0.304,β^0=yˉβ^1xˉ=10.28\hat{\beta}_1=L_{x y} / L_{x x}=0.304, \hat{\beta}_0=\bar{y}-\hat{\beta}_1 \bar{x}=10.28, 得经验回归方程 y^=10.28+0.304x\hat{y}=10.28+0.304 x. (2) Q回 =β^1Lxy=1321.488,Q利 =Lyyβ^1Lxy=2.332Q_{\text {回 }}=\hat{\beta}_1 L_{x y}=1321.488, Q_{\text {利 }}=L_{y y}-\hat{\beta}_1 L_{x y}=2.332,

F0=(n2)Q回 Q料 =10×1321.4882.332=5666.76F_0=(n-2) \frac{Q_{\text {回 }}}{Q_{\text {料 }}}=10 \times \frac{1321.488}{2.332}=5666.76 \text {. }

在水平 α=0.05\alpha=0.05 下, F0.05(1,10)=4.96F_{0.05}(1,10)=4.96, 因 F0>F0.05(1,10)F_0>F_{0.05}(1,10), 故回归方程显著. (3) δ=t0.025(10)σ^1+112+(225205)214300=1.054t0.025(10)σ^\delta=t_{0.025}(10) \cdot \hat{\sigma} \sqrt{1+\frac{1}{12}+\frac{(225-205)^2}{14300}}=1.054 t_{0.025}(10) \hat{\sigma},

σ^=Q利 n2=2.33210=0.4829,t0.025(10)=2.2281\hat{\sigma}=\sqrt{\frac{Q_{\text {利 }}}{n-2}}=\sqrt{\frac{2.332}{10}}=0.4829, t_{0.025}(10)=2.2281, 故 y^0=10.28+0.304×225=78.68\hat{y}_0=10.28+0.304 \times 225=78.68, 所求预测区间为

(78.68±2.2281×0.4829×1.054)=(78.68±1.134)(78.68 \pm 2.2281 \times 0.4829 \times 1.054)=(78.68 \pm 1.134)

控制问题

控制问题是预测问题的反问题,即考虑这样的问题,将观察值 yy 控制在一定范围内 y1<y<y2y_1<y<y_2 取值,问 xx 应控制在什么范围?

对于给定的置信度 1α1-\alpha, 求出相应的 x1x2x_1 、 x_2, 使 x1<x<x2x_1<x<x_2 时, xx 所对应的观察值 yy 落在 (y1,y2)\left(y_1, y_2\right) 之内的概率不小于 1α1-\alpha.

nn 很大时, 从方程

{y1=y^σ^zα/2=β^0+β^1xσ^zα/2y2=y^+σ^zα/2=β^0+β^1x+σ^zα/2\left\{\begin{array}{l} y_1=\hat{y}-\hat{\sigma} z_{\alpha / 2}=\hat{\beta}_0+\hat{\beta}_1 x-\hat{\sigma} z_{\alpha / 2} \\ y_2=\hat{y}+\hat{\sigma} z_{\alpha / 2}=\hat{\beta}_0+\hat{\beta}_1 x+\hat{\sigma} z_{\alpha / 2} \end{array}\right.

分别解出 xx, 作为控制 xx 的上、下限:

{x1=(y1β^0+σ^zα/2)/β^1x2=(y2β^0σ^zα/2)/β^1.\left\{\begin{array}{l} x_1=\left(y_1-\hat{\beta}_0+\hat{\sigma} z_{\alpha / 2}\right) / \hat{\beta}_1 \\ x_2=\left(y_2-\hat{\beta}_0-\hat{\sigma} z_{\alpha / 2}\right) / \hat{\beta}_1 \end{array} .\right.

β^1>0\hat{\beta}_1>0 时, 控制区间为 (x1,x2)\left(x_1, x_2\right); 当 β^1<0\hat{\beta}_1<0 时, 控制区间为 (x2,x1)\left(x_2, x_1\right), 如图 10.2.3 所示. 图片

实际应用中, 由式 (10.2.1) 知, 要实现控制, 必须要求区间 (y1,y2)\left(y_1, y_2\right) 的长度大于 2σ^zα/22 \hat{\sigma} z_{\alpha / 2},否则控制区间不存在.

特别地, 当 α=0.05\alpha=0.05 时, zα/2=z0.025=1.962z_{\alpha / 2}=z_{0.025}=1.96 \approx 2, 故式 (10.2.2) 近似为

{x1=(y1β^0+2σ^)/β^1x2=(y2β^02σ^)/β^1\left\{\begin{array}{l} x_1=\left(y_1-\hat{\beta}_0+2 \hat{\sigma}\right) / \hat{\beta}_1 \\ x_2=\left(y_2-\hat{\beta}_0-2 \hat{\sigma}\right) / \hat{\beta}_1 \end{array}\right.