Keras Tokenizer字符级别不起作用

JCM

我通过char_level = True通过Keras令牌生成器发送列表列表,但结果是单词令牌化,而不是字符令牌化。

    from tensorflow import keras
    from keras.preprocessing.text import Tokenizer


    # List of lists
    train_data = [['SMITH', 'JOHN', '', 'CHESTERTOWN', 'MD', '21620', '555555555', 'F'], ['CROW', 'JOE', '', 'FREDERICK', 'MD', '217011313', '9999999999', 'F']]

    t = Tokenizer(filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n', split=',', char_level=True, oov_token=True) 
    t.fit_on_texts(train_data)
    train_token = np.array(t.texts_to_sequences(train_data)) 

    print(train_token)
    array([[ 5,  6,  2,  7,  3,  8,  9,  4], [10, 11,  2, 12,  3, 13, 14,  4]])
马克西姆·坎

发生这种情况是因为您的数据应该是字符串,而不是列表。如果将所有单词连接到一个字符串中,它将按预期工作。

只需将以下内容添加到您的代码中:

def concat_list(l):
    concat = ''
    for word in l:
        concat += word + ' '
    return concat

train_data = [concat_list(data) for data in train_data]

然后,您将获得:

>>> [list([16, 9, 17, 10, 11, 2, 18, 7, 11, 19, 2, 2, 12, 11, 5, 16, 10, 5, 8, 10, 7, 20, 19, 2, 9, 13, 2, 14, 6, 23, 14, 21, 2, 4, 4, 4, 4, 4, 4, 4, 4, 4, 2, 15, 2])
     list([12, 8, 7, 20, 2, 18, 7, 5, 2, 2, 15, 8, 5, 13, 5, 8, 17, 12, 24, 2, 9, 13, 2, 14, 6, 25, 21, 6, 6, 22, 6, 22, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 2, 15, 2])]

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

Keras Tokenizer num_words似乎不起作用

导入keras.datasets不起作用

Keras 加载的模型不起作用

Tensorflow.Keras:自定义约束不起作用

训练后Keras load_model不起作用

keras load_model在Google Colab中不起作用

默认的Adam优化器在tf.keras中不起作用,但是字符串`adam`可以

tf.keras.layers.Conv2D()在Keras后端设置为float16时不起作用

Keras串联层尺寸起作用

Keras RNN 中的維數問題 - 重塑不起作用?

使用基本的低级TensorFlow训练循环训练tf.keras模型不起作用

为什么我的Keras自定义损失函数不起作用?

自定义 Keras binary_crossentropy 损失函数不起作用

使用 TensorFlow 在 keras 中的代码中提前停止不起作用

具有CuDNNLSTM层的Keras模型在生产服务器上不起作用

Keras / Tensorflow-限制内核数(intra_op_parallelism_threads不起作用)

我用 'tf.keras.Sequential()' 构建的模型不起作用,为什么?

使用tf.data.Dataset作为Keras模型的训练输入不起作用

Keras:渐变问题,自定义图层在顺序模型中不起作用

提供简单数组数据时,超级简单的 Keras 序列不起作用

使用 keras load_img 函数时,matplotlib as plt 不起作用

Keras LSTM - 为什么我的 Earlystopping 功能不起作用?

如何解决 tf.keras.optimizers.Adam(lr=0.001) 命令不起作用的问题?

Keras字符级别LSTM文本分类不训练

Wampserver日志级别重写不起作用

Logback 日志级别更改不起作用

读取提交隔离级别不起作用

SQL Server兼容级别不起作用

Keras Tokenizer方法到底能做什么?