KerasHub:预训练模型 / API 文档 / 分词器 / WordPiece分词器

WordPiece分词器

[源代码]

WordPieceTokenizer

keras_hub.tokenizers.WordPieceTokenizer(
    vocabulary=None,
    sequence_length=None,
    lowercase=False,
    strip_accents=False,
    split=True,
    split_on_cjk=True,
    suffix_indicator="##",
    oov_token="[UNK]",
    special_tokens=None,
    special_tokens_in_strings=False,
    dtype="int32",
    **kwargs
)

一个 WordPiece 分词器层。

此层提供了一个高效的、图内(in graph)的 WordPiece 算法实现,该算法被 BERT 和其他模型使用。

为了使此层开箱即用更易于使用,它将对输入进行预分词,预分词可以选择性地将输入转换为小写、去除重音,并根据空白和标点符号进行分割。这些预分词步骤都是不可逆的。detokenize 方法将使用空格连接词语,并且不会完全反转 tokenize 操作。

如果需要更自定义的预分词步骤,可以通过传递 lowercase=Falsestrip_accents=Falsesplit=False 将该层配置为仅应用严格的 WordPiece 算法。在这种情况下,输入应为预先分割好的字符串张量或 RaggedTensor。

分词器的输出可以使用 sequence_length 参数进行填充和截断,或者保持不截断。具体的输出将取决于输入张量的秩。

如果输入是字符串批次(秩 > 0):默认情况下,该层将输出一个 tf.RaggedTensor,其中输出的最后一个维度是 Ragged。如果设置了 sequence_length,该层将输出一个稠密的 tf.Tensor,其中所有输入都已填充或截断到 sequence_length

如果输入是标量字符串(秩 == 0):默认情况下,该层将输出一个形状为 [None] 的稠密 tf.Tensor。如果设置了 sequence_length,输出将是一个形状为 [sequence_length] 的稠密 tf.Tensor

输出的数据类型可以通过 dtype 参数控制,该参数应为整数或字符串类型。

参数

  • vocabulary:字符串列表或字符串文件名路径。如果传递列表,列表中的每个元素应为一个 WordPiece 令牌字符串。如果传递文件名,文件应为包含每行一个 WordPiece 令牌的纯文本文件。
  • sequence_length:int。如果设置,输出将转换为稠密张量并进行填充/修剪,以便所有输出的长度都为 sequence_length。
  • lowercase:bool。如果为 True,输入文本在分词前将被转换为小写。默认为 False
  • strip_accents:bool。如果为 True,所有重音符号将在分词前从文本中移除。默认为 False
  • split:bool。如果为 True,输入将根据空白和标点符号进行分割,并且所有标点符号都将保留为令牌。如果为 False,输入应在调用分词器之前进行分割("预分词"),并作为包含完整词语的稠密张量或 RaggedTensor 传入。默认为 True
  • split_on_cjk:bool。如果为 True,输入将根据 CJK 字符进行分割,即中文、日文、韩文和越南文(https://en.wikipedia.org/wiki/CJK_Unified_Ideographs_(Unicode_block))。请注意,这仅在 split 为 True 时适用。默认为 True
  • suffix_indicator:str。添加到 WordPiece 前面的字符,用于指示它是另一个子词的后缀。例如 "##ing"。默认为 "##"
  • oov_token:str。用于替换未知令牌的字符串值。它必须包含在词汇表中。默认为 "[UNK]"
  • special_tokens_in_strings:bool。一个布尔值,指示分词器是否应在输入字符串中期望特殊令牌,这些令牌应被正确地分词并映射到其 ID。默认为 False。

参考

示例

Ragged 输出。

>>> vocab = ["[UNK]", "the", "qu", "##ick", "br", "##own", "fox", "."]
>>> inputs = "The quick brown fox."
>>> tokenizer = keras_hub.tokenizers.WordPieceTokenizer(
...     vocabulary=vocab,
...     lowercase=True,
... )
>>> outputs = tokenizer(inputs)
>>> np.array(outputs)
array([1, 2, 3, 4, 5, 6, 7], dtype=int32)

稠密输出。

>>> vocab = ["[UNK]", "the", "qu", "##ick", "br", "##own", "fox", "."]
>>> inputs = ["The quick brown fox."]
>>> tokenizer = keras_hub.tokenizers.WordPieceTokenizer(
...     vocabulary=vocab,
...     sequence_length=10,
...     lowercase=True,
... )
>>> outputs = tokenizer(inputs)
>>> np.array(outputs)
array([[1, 2, 3, 4, 5, 6, 7, 0, 0, 0]], dtype=int32)

字符串输出。

>>> vocab = ["[UNK]", "the", "qu", "##ick", "br", "##own", "fox", "."]
>>> inputs = "The quick brown fox."
>>> tokenizer = keras_hub.tokenizers.WordPieceTokenizer(
...     vocabulary=vocab,
...     lowercase=True,
...     dtype="string",
... )
>>> tokenizer(inputs)
['the', 'qu', '##ick', 'br', '##own', 'fox', '.']

反分词。

>>> vocab = ["[UNK]", "the", "qu", "##ick", "br", "##own", "fox", "."]
>>> inputs = "The quick brown fox."
>>> tokenizer = keras_hub.tokenizers.WordPieceTokenizer(
...     vocabulary=vocab,
...     lowercase=True,
... )
>>> tokenizer.detokenize(tokenizer.tokenize(inputs))
'the quick brown fox .'

自定义分割。

>>> vocab = ["[UNK]", "the", "qu", "##ick", "br", "##own", "fox", "."]
>>> inputs = "The$quick$brown$fox"
>>> tokenizer = keras_hub.tokenizers.WordPieceTokenizer(
...     vocabulary=vocab,
...     split=False,
...     lowercase=True,
...     dtype='string',
... )
>>> split_inputs = tf.strings.split(inputs, sep="$")
>>> tokenizer(split_inputs)
['the', 'qu', '##ick', 'br', '##own', 'fox']

[源代码]

tokenize 方法

WordPieceTokenizer.tokenize(inputs)

将字符串输入张量转换为输出令牌。

参数

  • inputs:输入张量,或输入张量的字典/列表/元组。
  • *args:额外的定位参数。
  • **kwargs:额外的关键字参数。

[源代码]

detokenize 方法

WordPieceTokenizer.detokenize(inputs)

将令牌转换回字符串。

参数

  • inputs:输入张量,或输入张量的字典/列表/元组。
  • *args:额外的定位参数。
  • **kwargs:额外的关键字参数。

[源代码]

get_vocabulary 方法

WordPieceTokenizer.get_vocabulary()

获取分词器词汇表,作为字符串令牌列表。


[源代码]

vocabulary_size 方法

WordPieceTokenizer.vocabulary_size()

获取分词器词汇表的整数大小。


[源代码]

token_to_id 方法

WordPieceTokenizer.token_to_id(token)

将字符串令牌转换为整数 ID。


[源代码]

id_to_token 方法

WordPieceTokenizer.id_to_token(id)

将整数 ID 转换为字符串令牌。