► KerasHub: 预训练模型 / API 文档 / 分词器 / WordPieceTokenizer

WordPieceTokenizer

`WordPieceTokenizer` 类

keras_hub.tokenizers.WordPieceTokenizer(
    vocabulary=None,
    sequence_length=None,
    lowercase=False,
    strip_accents=False,
    split=True,
    split_on_cjk=True,
    suffix_indicator="##",
    oov_token="[UNK]",
    special_tokens=None,
    special_tokens_in_strings=False,
    dtype="int32",
    **kwargs
)

WordPiece 分词器层。

此层提供了 BERT 和其他模型使用的 WordPiece 算法的高效、图内实现。

为了使此层更易于开箱即用，该层将对输入进行预分词，其中可以选择性地进行小写转换、去除重音，以及按空格和标点符号分割输入。这些预分词步骤中的每一个都是不可逆的。detokenize 方法将用空格连接单词，并且不会精确地反转 tokenize。

如果需要更自定义的预分词步骤，可以将该层配置为仅应用严格的 WordPiece 算法，方法是传入 lowercase=False、strip_accents=False 和 split=False。在这种情况下，输入应该是预分割的字符串张量或不规则张量。

分词器输出可以通过 sequence_length 参数进行填充和截断，也可以不截断。具体输出将取决于输入张量的秩。

如果输入是字符串批次（rank > 0）：默认情况下，该层将输出一个 tf.RaggedTensor，其中输出的最后一个维度是不规则的。如果设置了 sequence_length，该层将输出一个密集 tf.Tensor，其中所有输入都已填充或截断为 sequence_length。

如果输入是标量字符串（rank == 0）：默认情况下，该层将输出一个静态形状为 [None] 的密集 tf.Tensor。如果设置了 sequence_length，则输出将是一个形状为 [sequence_length] 的密集 tf.Tensor。

输出数据类型可以通过 dtype 参数控制，该参数应为整数或字符串类型。

参数

vocabulary：字符串列表或字符串文件名路径。如果传入列表，列表的每个元素都应该是一个 WordPiece 标记字符串。如果传入文件名，文件应该是一个纯文本文件，每行包含一个 WordPiece 标记。
sequence_length：int。如果设置，输出将被转换为密集张量并进行填充/裁剪，使所有输出的长度都为 sequence_length。
lowercase：bool。如果为 True，输入文本在分词前将转换为小写。默认为 False。
strip_accents：bool。如果为 True，所有重音符号将在分词前从文本中删除。默认为 False。
split：bool。如果为 True，输入将按空格和标点符号分割，并且所有标点符号都将保留为标记。如果为 False，输入在调用分词器之前应进行分割（“预分词”），并作为完整单词的密集或不规则张量传入。默认为 True。
split_on_cjk：bool。如果为 True，输入将按 CJK 字符分割，即中文、日文、韩文和越南字符（https://en.wikipedia.org/wiki/CJK_Unified_Ideographs_(Unicode_block)）。请注意，这仅适用于 split 为 True 时。默认为 True。
suffix_indicator：str。前缀到 WordPiece 以指示其为另一个子词后缀的字符。例如，“##ing”。默认为 "##"。
oov_token：str。用于替换未知标记的字符串值。它必须包含在词汇表中。默认为 "[UNK]"。
special_tokens_in_strings：布尔值。一个布尔值，指示分词器是否应在输入字符串中期望特殊标记，这些标记应被正确分词并映射到它们的 ID。默认为 False。

参考文献

示例

不规则输出。

>>> vocab = ["[UNK]", "the", "qu", "##ick", "br", "##own", "fox", "."]
>>> inputs = "The quick brown fox."
>>> tokenizer = keras_hub.tokenizers.WordPieceTokenizer(
...     vocabulary=vocab,
...     lowercase=True,
... )
>>> outputs = tokenizer(inputs)
>>> np.array(outputs)
array([1, 2, 3, 4, 5, 6, 7], dtype=int32)

稠密输出。

>>> vocab = ["[UNK]", "the", "qu", "##ick", "br", "##own", "fox", "."]
>>> inputs = ["The quick brown fox."]
>>> tokenizer = keras_hub.tokenizers.WordPieceTokenizer(
...     vocabulary=vocab,
...     sequence_length=10,
...     lowercase=True,
... )
>>> outputs = tokenizer(inputs)
>>> np.array(outputs)
array([[1, 2, 3, 4, 5, 6, 7, 0, 0, 0]], dtype=int32)

字符串输出。

>>> vocab = ["[UNK]", "the", "qu", "##ick", "br", "##own", "fox", "."]
>>> inputs = "The quick brown fox."
>>> tokenizer = keras_hub.tokenizers.WordPieceTokenizer(
...     vocabulary=vocab,
...     lowercase=True,
...     dtype="string",
... )
>>> tokenizer(inputs)
['the', 'qu', '##ick', 'br', '##own', 'fox', '.']

反分词。

>>> vocab = ["[UNK]", "the", "qu", "##ick", "br", "##own", "fox", "."]
>>> inputs = "The quick brown fox."
>>> tokenizer = keras_hub.tokenizers.WordPieceTokenizer(
...     vocabulary=vocab,
...     lowercase=True,
... )
>>> tokenizer.detokenize(tokenizer.tokenize(inputs))
'the quick brown fox .'

自定义分割。

>>> vocab = ["[UNK]", "the", "qu", "##ick", "br", "##own", "fox", "."]
>>> inputs = "The$quick$brown$fox"
>>> tokenizer = keras_hub.tokenizers.WordPieceTokenizer(
...     vocabulary=vocab,
...     split=False,
...     lowercase=True,
...     dtype='string',
... )
>>> split_inputs = tf.strings.split(inputs, sep="$")
>>> tokenizer(split_inputs)
['the', 'qu', '##ick', 'br', '##own', 'fox']