load_data
函数keras.datasets.reuters.load_data(
path="reuters.npz",
num_words=None,
skip_top=0,
maxlen=None,
test_split=0.2,
seed=113,
start_char=1,
oov_char=2,
index_from=3,
)
加载路透社新闻分类数据集。
这是来自路透社的包含 11,228 篇新闻报道的数据集,标记了超过 46 个主题。
该数据集最初是通过解析和预处理经典的 Reuters-21578 数据集生成的,但预处理代码不再包含在 Keras 中。有关更多信息,请参阅此 GitHub 讨论。
每篇新闻报道被编码为一个词索引(整数)列表。为了方便起见,词语根据其在数据集中的总频率进行索引,例如,整数“3”编码数据中第三常见的词语。这允许进行快速过滤操作,例如:“仅考虑前 10,000 个最常见的词语,但排除前 20 个最常见的词语”。
按照惯例,“0”不代表特定的词语,而是用于编码任何未知词语。
参数
~/.keras/dataset
)。num_words
个最频繁的词语。任何频率较低的词语将以 oov_char
值出现在序列数据中。如果为 None,则保留所有词语。默认为 None
。oov_char
值出现在数据集中。0 表示不跳过任何词语。默认为 0
。None
。0.
和 1.
之间的浮点数。用作测试数据的数据集比例。0.2
表示将 20% 的数据集用作测试数据。默认为 0.2
。1
。num_words
或 skip_top
限制而被排除的词语将替换为此字符。返回值
(x_train, y_train), (x_test, y_test)
。x_train
、x_test
:序列列表,每个序列是索引(整数)列表。如果指定了 num_words 参数,则最大可能的索引值为 num_words - 1
。如果指定了 maxlen
参数,则最大可能的序列长度为 maxlen
。
y_train
、y_test
:整数标签列表(1 或 0)。
注意:词汇表外字符仅用于存在于训练集中但由于未达到 num_words
限制而未包含在内的词语。从未在训练集中出现但在测试集中的词语已被直接跳过。
get_word_index
函数keras.datasets.reuters.get_word_index(path="reuters_word_index.json")
检索一个将词语映射到其在路透社数据集中索引的字典。
实际词语索引从 3 开始,其中 3 个索引保留用于:0 (填充),1 (开始),2 (词汇表外)。
例如,'the' 的词索引是 1,但在实际训练数据中,'the' 的索引将是 1 + 3 = 4。反之,使用此映射将训练数据中的词索引翻译回词语时,索引需要减去 3。
参数
~/.keras/dataset
)。返回值
词语索引字典。键是词语字符串,值是其索引。