3._回归方程的显著性检验

回归方程的显著性检验

由回归系数的最小二乘可知, 对任意给定的数据 (x1,y1),(x2,y2),,(xn,yn)\left(x_1, y_1\right),\left(x_2, y_2\right), \cdots,\left(x_n, y_n\right), 都能求出 β0\beta_0β1\beta_1 的估计 β^0β^1\hat{\beta}_0 、 \hat{\beta}_1 ,进而确定回归方程 y^=β^0+β^1x\hat{y}=\hat{\beta}_0+\hat{\beta}_1 x 。我们知道,建立回归方程的目的是寻找 yy 的均值随 xx 变化的规律,即找出回归方程 E(y)=β0+β1xE(y)=\beta_0+\beta_1 x 。如果 β1=0\beta_1=0 ,那么不管 xx 如何变化, E(y)E(y) 不随 xx 的变化而线性变化,这时求得的一元线性回归方程没有意义,或者说回归方程不显著. 如果 β10\beta_1 \neq 0, 那么当 xx 变化时, E(y)E(y)xx 的变化线性变化, 此时求得的回归方程就有意义,或者称回归方程是显著的。

综上所述,判断回归方程是否有意义即是要检验如下假设:

H0:β1=0,H0:β10.H_0: \beta_1=0, \quad H_0: \beta_1 \neq 0 .

当拒绝 H0H_0 时,则认为 yyxx 之间存在线性关系,所求得的线性回归方程有意义,回归方程显著. 若接受 H0H_0 ,则认为 yyxx 的关系不能用一元线性回归模型来表示,所求得的线性回归方程无意义。

回归方程FF 检验法

首先考虑观察值的偏差平方和分解。 (1) 平方和分解

设样本观察值为 (x1,y1),(x2,y2),,(xn,yn),y1,y2,,yn\left(x_1, y_1\right),\left(x_2, y_2\right), \cdots,\left(x_n, y_n\right), y_1, y_2, \cdots, y_n 的分散程度可以用总的偏差平方和来度量(Total Sum of Squares),记为

Q总 =i=1n(yiyˉ)2Q_{\text {总 }}=\sum_{i=1}^n\left(y_i-\bar{y}\right)^2 \text {. }

由正规方程组,有

Q总 =i=1n(yiyˉ)2=i=1n(yiy^i+y^iyˉ)2=i=1n(yiy^)2+2i=1n(yiy^i)(y^iyˉ)+i=1n(y^iyˉ)2=i=1n(yiy^i)2+i=1n(y^iyˉ)2=Q䣋 +Q回 .\begin{aligned} Q_{\text {总 }} & =\sum_{i=1}^n\left(y_i-\bar{y}\right)^2 \\ & =\sum_{i=1}^n\left(y_i-\hat{y}_i+\hat{y}_i-\bar{y}\right)^2 \\ & =\sum_{i=1}^n\left(y_i-\hat{y}\right)^2+2 \sum_{i=1}^n\left(y_i-\hat{y}_i\right)\left(\hat{y}_i-\bar{y}\right)+\sum_{i=1}^n\left(\hat{y}_i-\bar{y}\right)^2 \\ & =\sum_{i=1}^n\left(y_i-\hat{y}_i\right)^2+\sum_{i=1}^n\left(\hat{y}_i-\bar{y}\right)^2 \\ & =Q_{\text {䣋 }}+Q_{\text {回 }} . \end{aligned}

其中

Q利 =i=1n(yiy^i)2,Q回 =i=1n(y^iyˉ)2Q_{\text {利 }}=\sum_{i=1}^n\left(y_i-\hat{y}_i\right)^2, Q_{\text {回 }}=\sum_{i=1}^n\left(\hat{y}_i-\bar{y}\right)^2 \text {. }

QQ_{\text {利}}称为剩余平方和 (Residual Sum of Squares), 它反映了观测值 yiy_i偏离回归直线的程度, 这种偏离是由试验误差及其他未加控制的因素引起的, 它的大小反映了试验误差及其他因素对试验结果的影响. Q回 Q_{\text {回 }}回归平方和 (Regression Sum of Squares), 它反映了回归值 y^i(i=1,2,,n)\hat{y}_i(i=1,2, \cdots, n) 的分散程度, 它的分散性是由 xx 的变化而引起的, 并通过 xxyy 的线性影响反映出来.线性相关性越强。

通过对 Q利,Q_{\text {利,}}Q回的分析,y1,y2,,yn 的分散程度 Q总  的两种影响可以从数量上区分开 Q_{\text {回的分析,} y_1, y_2, \cdots, y_n \text { 的分散程度 } Q_{\text {总 }} \text { 的两种影响可以从数量上区分开 }}线性相关性越强。

(2)检验统计量与拒绝域 基于上面的推导,还可以得出关于 Q回 Q_{\text {回 }}QQ_{\text {剩}}的一个很重要的定理。

定理 10.1.2 设线性回归模型 y=β0+β1x+ε,εN(0,σ2)y=\beta_0+\beta_1 x+\varepsilon, \varepsilon \sim N\left(0, \sigma^2\right), 当 H0H_0 成立时, 则有 β^1\hat{\beta}_1Q利 Q_{\text {利 }}相互独立,且 Q利 /σ2χ2(n2),Q回 /σ2χ2(1)Q_{\text {利 }} / \sigma^2 \sim \chi^2(n-2), Q_{\text {回 }} / \sigma^2 \sim \chi^2(1).

证明 略. 由定理 10.1.2 可知, 当 H0H_0 为真时, 统计量

F=Q回 /1Q利 /(n2)F(1,n2).F=\frac{Q_{\text {回 }} / 1}{Q_{\text {利 }} /(n-2)} \sim F(1, n-2) .

对于给定显著性水平 α\alpha, 得拒绝域为

F>Fα(1,n2),F>F_\alpha(1, n-2),

根据试验数据 (x1,y1),(x2,y2),,(xn,yn)\left(x_1, y_1\right),\left(x_2, y_2\right), \cdots,\left(x_n, y_n\right) 计算 FF 的值, 并查表确定 Fα(1,n2)F_\alpha(1, n-2), 当 F>Fα(1,n2)F>F_\alpha(1, n-2) 时,拒绝 H0H_0 ,表明回归效果显著,即认为在显著性水平 α\alpha 下, yyxx 的线性相关关系是显著的. 反之,当 FFα(1,n2)F \leqslant F_\alpha(1, n-2) 时,接受 H0H_0 ,此时回归效果不显著,则认为 yyxx 没有线性相关关系,即所求线性回归方程无实际意义。

也可将整个检验过程列成方差分析表, 如表 10.1.1所示. 图片

以家庭为单位,某种商品年需求量与该商品价格之间的一组调查数据如下 图片

(1)求经验回归方程 y^=β^0+β^1x\hat{y}=\hat{\beta}_0+\hat{\beta}_1 x ; (2)检验线性关系的显著性( α=0.05\alpha=0.05 ,采用 FF 检验法)。 解(1)由题意计算得 xˉ=2.9,Lxx=7.18,yˉ=2.1,Lyy=6.58\bar{x}=2.9, L_{x x}=7.18, \bar{y}=2.1, L_{y y}=6.58

Lxy=i=1nxiyinxˉyˉ=54.972.1×2.9×10=5.93L_{x y}=\sum_{i=1}^n x_i y_i-n \bar{x} \bar{y}=54.97-2.1 \times 2.9 \times 10=-5.93

β^1=Lxy/Lxx=0.826,β^0=yˉβ^1xˉ=4.449\hat{\beta}_1=L_{x y} / L_{x x}=-0.826, \hat{\beta}_0=\bar{y}-\hat{\beta}_1 \bar{x}=4.449 。 经验回归方程 y^=4.4950.826x\hat{y}=4.495-0.826 x . (2)Q回 =β^1Lxy=(0.826)×(5.93)=4.898,Q剩 =Lyyβ^1Lxy=1.682Q_{\text {回 }}=\hat{\beta}_1 L_{x y}=(-0.826) \times(-5.93)=4.898, Q_{\text {剩 }}=L_{y y}-\hat{\beta}_1 L_{x y}=1.682

F0=Q回 Q剩 /(n2)=8×4.8981.682=23.297,α=0.05,F0.05(1.8)=5.32.\begin{gathered} F_0=\frac{Q_{\text {回 }}}{Q_{\text {剩 }} /(n-2)}=8 \times \frac{4.898}{1.682}=23.297, \\ \alpha=0.05, \quad F_{0.05}(1.8)=5.32 . \end{gathered}

F0>F0.05(1,8)F_0>F_{0.05}(1,8) ,故回归是显著的.

TT 检验法

由定理 10.1.1 可得

(β^1β1)/(σ/Lxx)N(0,1),\begin{aligned} &\left(\hat{\beta}_1-\beta_1\right) /\left(\sigma / \sqrt{L_{x x}}\right) \sim N(0,1), \end{aligned}

又由定理 10.1.2 可知, σ^2=Q利 /(n2)\hat{\sigma}^2=Q_{\text {利 }} /(n-2)σ2\sigma^2 的无偏估计. 经过简单推导可知,

(n2)σ^2/σ2=Q剩 /σ2χ2(n2),(n-2) \hat{\sigma}^2 / \sigma^2=Q_{\text {剩 }} / \sigma^2 \sim \chi^2(n-2),

(β^1β1)/(σ/Lxx)\left(\hat{\beta}_1-\beta_1\right) /\left(\sigma / \sqrt{L_{x x}}\right)(n2)σ^2/σ2(n-2) \hat{\sigma}^2 / \sigma^2 相互独立. 故取检验统计量

T=β^1σ^Lxxt(n2).T=\frac{\hat{\beta}_1}{\hat{\sigma}} \sqrt{L_{x x}} \sim t(n-2) .

由给定的显著性水平 α\alpha, 查表得 tα/2(n2)t_{\alpha / 2}(n-2), 根据试验数据 (x1,y1),(x2,y2),,(xn,yn)\left(x_1, y_1\right),\left(x_2, y_2\right), \cdots,\left(x_n, y_n\right) 计算 TT 的值 tt, 当 t>tα/2(n2)|t|>t_{\alpha / 2}(n-2) 时, 拒绝 H0H_0, 此时回归效应显著; 当 ttα/2(n2)|t| \leqslant t_{\alpha / 2}(n-2) 时, 接受 H0H_0,此时回归效果不显著.

回归方程相关系数检验法

为了检验线性回归直线是否显著, 还可用 xxyy 之间的相关系数来检验. 即对下列检验问题做出判断.

H0:r=0,H1:r0H_0: r=0, \quad H_1: r \neq 0

检验统计量为其样本的相关系数

r=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2=LxyLxxLyy,r=\dfrac{\sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)}{\sqrt{\sum_{i=1}^n\left(x_i-\bar{x}\right)^2 \sum_{i=1}^n\left(y_i-\bar{y}\right)^2}}=\dfrac{L_{x y}}{\sqrt{L_{x x}} \sqrt{L_{y y}}},

其中 (xi,yi),i=1,,n\left(x_i, y_i\right), i=1, \cdots, n, 是容量为 nn 的二维样本. 可以证明, 当 H0H_0 为真时,

r1r2n2t(n2),\frac{r}{\sqrt{1-r^2}} \sqrt{n-2} \sim t(n-2),

H0H_0 的拒绝域为

ttα/2(n2).t \geqslant t_{\alpha / 2}(n-2) .

在一元线性回归预测中,以上的 FF 检验法、 tt 检验法、相关系数检验法都是等价的,在实际中只需做其中一种检验即可.