Tensorflow中的A3C-我应该使用线程还是分布式Tensorflow API

哈维尔优势埃尔南德斯

我想在我的本地计算机（1个CPU，1个cuda兼容GPU）中实施异步优势演员评论家（A3C）模型以进行强化学习。在这种算法中，几个“学习者”网络与环境的副本进行交互，并定期更新中心模型。

我已经看到了在同一图中创建n个“工作”网络和一个“全局”网络并使用线程来运行它们的实现。在这些方法中，通过将梯度应用于具有“全局”范围的可训练参数来更新全局网。

但是，我最近阅读了一些有关分布式张量流的信息，现在我有点困惑。使用分布式tensorflow API实施此操作会更容易/更快/更好吗？他们在文档和讲座中总是明确提到在多设备环境中使用它。我不知道在本地异步算法中使用它是否过大。

我也想问一下，有没有办法在n个步骤之后将每个工人计算出的梯度进行批处理？

蓝太阳

两者都实现之后，最终我发现使用线程要比分布式tensorflow API更简单，但是运行速度也较慢。与线程相比，您使用的CPU内核越多，分布式张量流就变得越快。

但是，这仅适用于异步训练。如果可用的CPU内核受到限制，并且您想使用GPU，则可能需要对多个工作人员使用同步训练，就像OpenAI在其A2C实现中所做的那样。那里只有环境被并行化（通过多处理），并且tensorflow使用GPU而没有任何图形并行化。OpenAI报告说，同步训练的结果要优于A3C。

编辑：

以下是更多详细信息：

A3C的分布式张量流的问题在于，您需要在调用学习步骤之前调用多个张量流正向传递（以在n个步骤中获取操作）。但是，由于您异步学习，因此在其他工作人员的n个步骤中，您的网络将发生变化。因此，您的政策将在n个步骤中发生变化，并且学习步骤将以错误的权重发生。分布式张量流不会阻止这种情况。因此，您还需要分布式张量流中的全局和本地网络，这使得实现不比带有线程的实现容易（对于线程而言，您不必学习如何使分布式张量流工作）。在运行时方面，在8个或更少的CPU内核上，不会有太大差异。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-21

我来说两句

0 条评论

登录后参与评论

上一篇：有无序集合的Python数据类型吗？

TOP 榜单

文章

Tensorflow中的A3C-我应该使用线程还是分布式Tensorflow API

Tensorflow中的A3C-我应该使用线程还是分布式Tensorflow API

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

SQL Server中的非确定性数据类型

Swift 2.1-对单个单元格使用UITableView

如何避免每次重新编译所有文件？

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

应用发明者仅从列表中选择一个随机项一次

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

HttpClient中的角度变化检测

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何了解DFT结果

Camunda-根据分配的组过滤任务列表

错误：找不到存根。请确保已调用spring-cloud-contract：convert

为什么此后台线程中未处理的异常不会终止我的进程？

构建类似于Jarvis的本地语言应用程序

使用分隔符将成对相邻的数组元素相互连接

您如何通过 Nativescript 中的 Fetch 发出发布请求？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

使用React / Javascript在Wordpress API中通过ID获取选择的多个帖子/页面

使用 text() 獲取特定文本節點的 XPath