► Keras 3 API 文档 / 层 API / 预处理层 / 数值特征预处理层 / 离散化层

Discretization 层

`Discretization` 类

keras.layers.Discretization(
    bin_boundaries=None,
    num_bins=None,
    epsilon=0.01,
    output_mode="int",
    sparse=False,
    dtype=None,
    name=None,
)

一个通过范围划分连续特征的预处理层。

此层将其输入数据的每个元素放入几个连续范围中的一个，并输出一个整数索引，指示每个元素被放入哪个范围。

注意：此层可以在 tf.data 管道中使用（与您使用的后端无关）。

输入形状

任何维度为 2 或更高的数组。

输出形状

与输入形状相同。

参数

bin_boundaries：分界点列表。最左边和最右边的分箱将始终扩展到 -inf 和 inf，因此 bin_boundaries=[0., 1., 2.] 生成的分箱为 (-inf, 0.)、[0., 1.)、[1., 2.) 和 [2., +inf)。如果设置此选项，则不应调用 adapt()。
num_bins：要计算的分箱的整数数量。如果设置此选项，则不应设置 bin_boundaries，并且应调用 adapt() 来学习分箱边界。
epsilon：误差容忍度，通常是接近零的小数（例如 0.01）。较高的 epsilon 值会增加分位数近似，从而导致分箱更不均匀，但可以提高性能并减少资源消耗。
output_mode：层输出的规范。值可以是 "int"、"one_hot"、"multi_hot" 或 "count"，配置层如下：
- "int"：直接返回离散化后的分箱索引。
- "one_hot"：将输入中的每个独立元素编码为一个与 num_bins 大小相同的数组，在输入的对应分箱索引处包含 1。如果最后一个维度的大小为 1，则在该维度上进行编码。如果最后一个维度的大小不为 1，则将为编码后的输出添加一个新维度。
- "multi_hot"：将输入中的每个样本编码为与 num_bins 大小相同的单个数组，其中包含样本中存在的每个分箱索引的 1。将最后一个维度视为样本维度，如果输入形状为 (..., sample_length)，则输出形状将为 (..., num_tokens)。
- "count"：与 "multi_hot" 类似，但整数数组包含分箱索引在样本中出现的次数计数。默认为 "int"。
sparse：布尔值。仅适用于 "one_hot"、"multi_hot" 和 "count" 输出模式。仅支持 TensorFlow 后端。如果为 True，则返回 SparseTensor 而不是密集 Tensor。默认为 False。

示例

根据提供的分箱离散化浮点值。

>>> input = np.array([[-1.5, 1.0, 3.4, .5], [0.0, 3.0, 1.3, 0.0]])
>>> layer = Discretization(bin_boundaries=[0., 1., 2.])
>>> layer(input)
array([[0, 2, 3, 1],
       [1, 3, 2, 1]])

根据要计算的分箱数量离散化浮点值。

>>> input = np.array([[-1.5, 1.0, 3.4, .5], [0.0, 3.0, 1.3, 0.0]])
>>> layer = Discretization(num_bins=4, epsilon=0.01)
>>> layer.adapt(input)
>>> layer(input)
array([[0, 2, 3, 2],
       [1, 3, 3, 1]])

Discretization 层

Discretization 类

Discretization 层

Discretization 类

`Discretization` 类