42.1_玩具数据集

42.1 玩具数据集

在本步骤,我们将创建一个用于实验的小型数据集。这个小型数据集称为玩具数据集(toy datasets)。考虑到重现性,我们用固定的随机种子创建数据,具体代码如下。

import numpy as np  
np.random.seed(0)  
x = np.random.randint(100, 1)  
y = 5 + 2 * x + np.random.randint(100, 1)

上面的代码创建了一个由变量 xxyy 组成的数据集。这些数据点沿直线分布,是在 yy 上增加作为噪声的随机数得到的。图42-1展示了这些 (x,y)(x, y) 数据点的分布情况。


图42-1 本步骤使用的数据集

如图42-1所示,虽然x和y之间呈线性关系,但数据中存在噪声。我们的目标是创建根据x值预测y值的模型(式子)。

根据 xx 值预测实数值 yy 的做法叫作回归(regression)。另外,当预测模型呈线性(直线)时,这种回归分析称为线性回归。