42.1_玩具数据集
42.1 玩具数据集
在本步骤,我们将创建一个用于实验的小型数据集。这个小型数据集称为玩具数据集(toy datasets)。考虑到重现性,我们用固定的随机种子创建数据,具体代码如下。
import numpy as np
np.random.seed(0)
x = np.random.randint(100, 1)
y = 5 + 2 * x + np.random.randint(100, 1)上面的代码创建了一个由变量 和 组成的数据集。这些数据点沿直线分布,是在 上增加作为噪声的随机数得到的。图42-1展示了这些 数据点的分布情况。

图42-1 本步骤使用的数据集
如图42-1所示,虽然x和y之间呈线性关系,但数据中存在噪声。我们的目标是创建根据x值预测y值的模型(式子)。

根据 值预测实数值 的做法叫作回归(regression)。另外,当预测模型呈线性(直线)时,这种回归分析称为线性回归。