路透社新闻分类数据集

`load_data` 函数

tf_keras.datasets.reuters.load_data(
    path="reuters.npz",
    num_words=None,
    skip_top=0,
    maxlen=None,
    test_split=0.2,
    seed=113,
    start_char=1,
    oov_char=2,
    index_from=3,
    **kwargs
)

加载路透社新闻分类数据集。

这是一个包含 11,228 条路透社新闻稿的数据集，分为 46 个主题。

该数据集最初是通过解析和预处理经典的 Reuters-21578 数据集生成的，但预处理代码不再与 TF-Keras 打包在一起。更多信息，请参阅此 GitHub 讨论。

每条新闻稿都编码为单词索引（整数）列表。为方便起见，单词按数据集中的整体频率进行索引，例如，整数“3”表示数据中第 3 个最常出现的单词。这允许快速过滤操作，例如：“只考虑前 10,000 个最常见的单词，但排除前 20 个最常见的单词”。

按照惯例，“0”不代表特定单词，而是用于编码任何未知单词。

参数

path：缓存数据的位置（相对于 ~/.keras/dataset）。
num_words：整数或 None。单词按其出现频率（在训练集中）进行排序，并且只保留 num_words 个最常出现的单词。任何频率较低的单词都将作为序列数据中的 oov_char 值出现。如果为 None，则保留所有单词。默认为 None。
skip_top：跳过前 N 个最常出现的单词（这些单词可能没有信息量）。这些单词将作为数据集中 oov_char 值出现。0 表示不跳过任何单词。默认为 0。
maxlen：整数或 None。最大序列长度。任何更长的序列都将被截断。None 表示不截断。默认为 None。
test_split：0. 和 1. 之间的浮点数。用作测试数据的数据集部分。0.2 表示 20% 的数据集用作测试数据。默认为 0.2。
seed：整数。用于可重复数据洗牌的种子。
start_char：整数。序列的开头将用此字符标记。0 通常是填充字符。默认为 1。
oov_char：整数。超出词汇表的字符。由于 num_words 或 skip_top 限制而被裁剪掉的单词将替换为此字符。
index_from：整数。使用此索引及更高的索引对实际单词进行索引。
**kwargs：用于向后兼容性。

返回值

NumPy 数组的元组：(x_train, y_train), (x_test, y_test)。

x_train, x_test：序列列表，这些序列是索引（整数）列表。如果指定了 num_words 参数，则最大可能的索引值为 num_words - 1。如果指定了 maxlen 参数，则最大可能的序列长度为 maxlen。

y_train, y_test：整数标签列表（1 或 0）。

注意：“超出词汇表”字符仅用于训练集中存在的但由于未达到 num_words 限制而未包含的单词。训练集中未见但测试集中存在的单词已被简单跳过。

[来源]

`get_word_index` 函数

tf_keras.datasets.reuters.get_word_index(path="reuters_word_index.json")

检索一个字典，将单词映射到其在路透社数据集中的索引。

实际单词索引从 3 开始，3 个索引保留用于：0（填充），1（开始），2（oov）。

例如，“the”的单词索引为 1，但在实际训练数据中，“the”的索引将为 1 + 3 = 4。反之亦然，要使用此映射将训练数据中的单词索引转换回单词，索引需要减去 3。

参数

path：缓存数据的位置（相对于 ~/.keras/dataset）。

返回值

单词索引字典。键是单词字符串，值是其索引。

路透社新闻分类数据集

load_data 函数

get_word_index 函数

路透社新闻分类数据集

load_data 函数

get_word_index 函数

`load_data` 函数

`get_word_index` 函数