Keras 2 API 文档 / 内置小型数据集 / 波士顿房价回归数据集

波士顿房价回归数据集

[来源]

load_data 函数

tf_keras.datasets.boston_housing.load_data(
    path="boston_housing.npz", test_split=0.2, seed=113
)

加载波士顿房价数据集。

该数据集取自卡内基梅隆大学维护的 StatLib 库。

警告:此数据集存在伦理问题:数据集的作者包含了一个名为“B”的变量,该变量似乎假设种族隔离会影响房价。因此,我们强烈建议不要使用此数据集,除非是在说明数据科学和机器学习中的伦理问题的情境下。

样本包含 1970 年代后期波士顿郊区不同地点的房屋的 13 个属性。目标是某个位置房屋的中位数价值(单位:千美元)。

属性本身在StatLib 网站中定义。

参数

  • path:本地缓存数据集的路径(相对于 ~/.keras/datasets)。
  • test_split:保留为测试集的数据的比例。
  • seed:在计算测试集拆分之前对数据进行洗牌的随机种子。

返回值

  • NumPy 数组元组(x_train, y_train), (x_test, y_test)

x_train, x_test:形状为 (num_samples, 13) 的 NumPy 数组,包含训练样本(对于 x_train)或测试样本(对于 y_train)。

y_train, y_test:形状为 (num_samples,) 的 NumPy 数组,包含目标标量。目标是通常在 10 到 50 之间的浮点标量,表示房屋价格(单位:千美元)。