预测与控制
在一元线性回归问题中, 若回归方程经检验效果显著, 则这时回归值与实际值拟合得较好,因而可以利用它对因变量 y 的新观察值 y0 进行点预测或区间预测.
预测问题
由于 x 与 y 并非确定性关系,对于任意给定的 x0 ,无法精确知道相应的 y0 值,但可由回归方程计算出一个回归值 y^0=β^0+β^1x0, 以一定的置信度预测对应的 y 的观察值的取值范围,也即对 y0 做区间估计,即在一定的显著性水平 α 下,寻找一个正数 δ ,使 P(∣y0−y^0∣⩽δ)=1−α, 称区间 [y^0−δ,y^0+δ] 为 y0 的概率为 1−α 的预测区间 (Prediction Interval), 这就是所谓的预测问题.
由定理 10.1.1 可推出,
y0−y^0∼N(0,[1+n1+Lxx(x0−xˉ)2]σ2), 又因 y0−y^0 与 σ^2 相互独立, 且
σ2(n−2)σ^2∼χ2(n−2) 所以
T=(y0−y^0)/σ^1+n1+Lxx(x0−xˉ)2∼t(n−2), 故对给定的显著性水平 α, 求得
δ=ta/2(n−2)σ^1+n1+Lxx(x0−xˉ)2. 故得 y0 的置信度为 1−α 的预测区间为
y^0−ta/2(n−2)σ^1+n1+Lxx(x0−xˉ)2,y^0+ta/2(n−2)σ^1+n1+Lxx(x0−xˉ)2. 对于给定样本观察值, 可作出曲线
⎩⎨⎧y1(x)=y^(x)−ta/2(n−2)σ^1+n1+Lxx(x0−xˉ)2y2(x)=y^(x)+ta/2(n−2)σ^1+n1+Lxx(x0−xˉ)2 这两条曲线形成包含回归直线 y^=β^0+β^1x 的带形域, 如图 10.2.1 所示, 这一带形域在 x=xˉ 处最窄, 说明越靠近 xˉ, 预测精度就越高. 而当 x0 离 xˉ 较远时, 置信区域逐渐加宽, 此时精度逐渐下降。
在实际的回归问题中, 当样本容量 n 很大, 并且 x0 较接近 xˉ 时, 有
1+n1+Lxx(x0−xˉ)2≈1,tα/2(n−2)≈uα/2, 则 y0 的置信度为 1−α 的预测区间近似地等于
(y^0−ua/2σ^,y^0+ua/2σ^). 特别地, 若取 1−α=0.95, 则 y0 的置信度为 0.95 的预测区间为
(y^0−1.96σ^,y^0+1.96σ^) 取 1−α=0.997, 则 y0 的置信度为 0.997 的预测区间为
(y^0−2.97σ^,y^0+2.97σ^). 由此可以预料,在全部可能出现的 y 值中,大约有 99.7% 的观测点落在直线 L1:y= β^0−2.97σ^+β^1x 与直线 L2:y=β^0+2.97σ^+β^1x 所夹的带形区域内, 如图 10.2.2 所示.

可见,预测区间意义与置信区间的意义相似,只是后者是对未知参数而言的,前者是对随机变量而言的.
例 某建材实验室做陶粒混凝土实验室中,考察每立方米混凝土的水泥用量(kg)
对混凝土抗压强度(kg/ 2 cm )的影响,测得下列数据.

(1) 求经验回归方程 y^=β^0+β^1x;
(2)检验一元线性回归的显著性( α=0.05 );
(3) 设 x0=225kg, 求 y 的预测值及置信度为 0.95 的预测区间.
解
(1) n=12,xˉ=205,Lxx=14300,yˉ=72.6,
Lyy=1323.82, Lxy=i=1∑nxiyi−nxˉyˉ=182943−12×205×72.6=4347, 故 β^1=Lxy/Lxx=0.304,β^0=yˉ−β^1xˉ=10.28, 得经验回归方程 y^=10.28+0.304x.
(2) Q回 =β^1Lxy=1321.488,Q利 =Lyy−β^1Lxy=2.332,
F0=(n−2)Q料 Q回 =10×2.3321321.488=5666.76. 在水平 α=0.05 下, F0.05(1,10)=4.96, 因 F0>F0.05(1,10), 故回归方程显著.
(3) δ=t0.025(10)⋅σ^1+121+14300(225−205)2=1.054t0.025(10)σ^,
则 σ^=n−2Q利 =102.332=0.4829,t0.025(10)=2.2281, 故 y^0=10.28+0.304×225=78.68, 所求预测区间为
(78.68±2.2281×0.4829×1.054)=(78.68±1.134) 控制问题
控制问题是预测问题的反问题,即考虑这样的问题,将观察值 y 控制在一定范围内 y1<y<y2 取值,问 x 应控制在什么范围?
对于给定的置信度 1−α, 求出相应的 x1、x2, 使 x1<x<x2 时, x 所对应的观察值 y 落在 (y1,y2) 之内的概率不小于 1−α.
当 n 很大时, 从方程
{y1=y^−σ^zα/2=β^0+β^1x−σ^zα/2y2=y^+σ^zα/2=β^0+β^1x+σ^zα/2 分别解出 x, 作为控制 x 的上、下限:
⎩⎨⎧x1=(y1−β^0+σ^zα/2)/β^1x2=(y2−β^0−σ^zα/2)/β^1. 当 β^1>0 时, 控制区间为 (x1,x2); 当 β^1<0 时, 控制区间为 (x2,x1), 如图 10.2.3 所示.

实际应用中, 由式 (10.2.1) 知, 要实现控制, 必须要求区间 (y1,y2) 的长度大于 2σ^zα/2,否则控制区间不存在.
特别地, 当 α=0.05 时, zα/2=z0.025=1.96≈2, 故式 (10.2.2) 近似为
⎩⎨⎧x1=(y1−β^0+2σ^)/β^1x2=(y2−β^0−2σ^)/β^1