如何在具有tensorflow2和keras的多GPU上训练模型？

AVarf 发表于 Dev

航空兵

我有一个要在多个GPU上训练的LSTM模型。我将代码转换为执行此操作，然后nvidia-smi我可以看到它正在使用所有GPU的所有内存，并且每个GPU都使用了大约40％的BUT，估计每批的训练时间几乎与1 gpu相同。

有人可以引导我并告诉我如何在多个GPU上正确训练吗？

我的代码：

import tensorflow as tf

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.layers import LSTM
from tensorflow.keras.layers import Dropout

import os
from tensorflow.keras.callbacks import ModelCheckpoint



checkpoint_path = "./model/"
checkpoint_dir = os.path.dirname(checkpoint_path)
cp_callback = ModelCheckpoint(filepath=checkpoint_path, save_freq= 'epoch', verbose=1 )

# NNET - LSTM
strategy = tf.distribute.MirroredStrategy()
with strategy.scope():
    regressor = Sequential()

    regressor.add(LSTM(units = 180, return_sequences = True, input_shape = (X_train.shape[1], 3)))
    regressor.add(Dropout(0.2))

    regressor.add(LSTM(units = 180, return_sequences = True))
    regressor.add(Dropout(0.2))

    regressor.add(LSTM(units = 180))
    regressor.add(Dropout(0.2))

    regressor.add(Dense(units = 4))

    regressor.compile(optimizer = 'adam', loss = 'mean_squared_error')

regressor.fit(X_train, y_train, epochs = 10, batch_size = 32, callbacks=[cp_callback])

斯里哈里·汉巴瓦迪（Srihari Humbarwadi）

假设您batch_size使用的是单个GPU，则N每批花费的时间为X秒。

您可以通过测量模型收敛所需的时间来衡量训练速度，但是您必须确保正确地batch_size使用2个GPU，因为2个GPU的内存是单个GPU的两倍，因此您应该线性缩放batch_size以2N。可能令人着迷的是，该模型X每批次仍需要几秒钟，但是您应该知道，现在您的模型正在2N每批次中查看样本，并且可以更快地收敛，因为现在您可以以更高的学习率进行训练。

如果两个GPU的内存都被40%占用并且处于使用状态，则可能有多种原因

该模型太简单了，您不需要所有的计算。
你batch_size小，你的GPU可以处理更大batch_size
CPU是瓶颈，因此使GPU等待数据准备就绪，当您看到GPU利用率达到峰值时，可能就是这种情况
您需要编写更好的性能数据管道。您可以在此处找到有关有效数据输入管道的更多信息-https: //www.tensorflow.org/guide/data_performance

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-22

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

如何在具有tensorflow2和keras的多GPU上训练模型？

如何在具有tensorflow2和keras的多GPU上训练模型？

Android Studio Kotlin：提取为常量

计算数据帧R中的字符串频率

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

TreeMap中的自定义排序

TYPO3：将 Formhandler 添加到新闻扩展

遍历元素数组以每X秒在浏览器上显示

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

无法连接网络并在Ubuntu 14.04中找到eth0

将辅助轴原点与主要轴对齐

我可以ping IPv6但不能ping IPv4

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

提交html表单时为空

使用C ++ 11将数组设置为零

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称

尝试在Dell XPS13 9360上安装Windows 7时出错

如何在R中转置数据

无法使用 envoy 访问 .ssh/config

未捕获的SyntaxError：带有Ajax帖子的意外令牌u