1._引言

早在 19 世纪,英国生物学家兼统计学家高尔顿(Galton)在研究父代与子代身高的遗传问题时, 收集了 1078 对父与子的身高数据. 设 xx 表示父亲身高, yy 表示成年儿子的身高, 将这 1078 对父与子的身高数据放在直角坐标系中,发现这 1078 个点基本上在一条直线附近,该直线方程为 (单位: 英寸, 1 英寸 =2.54cm=2.54 cm ):

y=33.73+0.516x.y=33.73+0.516 x .

结果表明: (1)父亲身高每增加 1 个单位,其儿子的身高平均增加 0.516 个单位. (2)高个子父亲有生高个子儿子的趋势,但是一群高个子父亲的儿子们的平均身高要低于父辈们的平均身高. 例如: x=80x=80, 则 y=75.01y=75.01. (3)矮个子父亲的儿子们平均身高要比父辈们平均身高要高一些. 例如: x=60x=60, 则 y=64.69y=64.69.

这体现了子代的平均身高有向中心回归的趋势,使得一段时间内人的平均身高相对稳定. 之后回归分析的思想渗透到数理统计的其他分支中,应用也越来越广泛。

回归分析研究的是变量与变量间的关系。通常变量具有两类关系:一类称为确定性关系,即变量间的关系是完全确定的,可以用函数关系表示。例如,欧姆定律中电压 UU 与电阻 RR 、电流 II 之间的关系 U=IRU=I R ;圆的面积 SS 与半径 RR 之间的关系 S=πR2S=\pi R^2 等。另一类称为相关关系,即变量间有关系,但是不能用函数来表示。例如,人的身高和体重的关系、人的血压和年龄的关系、某产品的广告投入与销售额间的关系等,它们之间是有关联的,但是它们之间的关系又不能用普通函数来表示。具有相关关系的变量之间虽然具有某种不确定性,但通过对它们的不断观察,可以探索出它们之间的统计规律,回归分析就是研究这种统计规律的一种数学方法。

本节主要介绍一元线性回归模型估计、检验及相应的预测和控制等问题.