生成器的优化器是否也训练鉴别器？

WJM 发表于 Dev

在学习GAN时，我注意到代码示例展示了这种模式：

鉴别器是这样训练的：

d_optim.zero_grad()

real_pred = d(real_batch)
d_loss = d_loss_fn(real_pred, torch.ones(real_batch_size, 1))
d_loss.backward()

fake_pred = d(g(noise_batch).detach())
d_loss = d_loss_fn(fake_pred, torch.zeros(noise_batch_size, 1))
d_loss.backward()

d_optim.step()

生成器是这样训练的：

g_optim.zero_grad()

fake_pred = d(g(noise_batch))
g_loss = g_loss_fn(fake_pred, torch.ones(noise_batch_size, 1))
g_loss.backward()

g_optim.step()

提到的d(g(noise_batch).detach())是为鉴别器写的，而不是d(g(noise_batch))为了防止d_optim.step()训练而写的g，但是d(g(noise_batch))对于生成器却什么也没说。会g_optim.step()还培养d？

实际上，为什么d(g(noise_batch).detach())要举个例子d_optim = torch.optim.SGD(d.parameters(), lr=0.001)？这是否未指定d.parameters()并且也不g.parameters()进行更新？

akshayk07

TLDR：optimizer将仅更新为其指定的参数，而backward()call计算计算图中所有变量的梯度。因此，对于detach()此时不需要进行梯度计算的变量很有用。

我相信答案就在于PyTorch中实现事物的方式。

tensor.detach()创建一个张量，与张量共享tensor不需要张量的存储。因此，有效地切断了计算图。也就是说，这样做fake_pred = d(g(noise_batch).detach())会分离（切断）生成器的计算图。
调用backward()损失时，将为整个计算图计算梯度（与优化器是否使用梯度无关）。因此，切断发电机零件将避免发电机重量的梯度计算（因为不需要）。
此外，仅在调用optimizer时更新传递给特定参数的参数optimizer.step()。因此，g_optim只会优化传递给它的参数（您没有明确提及传递给的参数g_optim）。同样，d_optim仅d.parameters()在您明确指定后才会更新。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-23

我来说两句

0 条评论

登录后参与评论

上一篇：Xcode 11 Scenekit编辑器错误

生成器的优化器是否也训练鉴别器？

生成器的优化器是否也训练鉴别器？

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何正确比较 scala.xml 节点？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

在令牌内联程序集错误之前预期为 ')'

数据表中有多个子行，asp.net核心中来自sql server的数据

VBA 自动化错误：-2147221080 (800401a8)

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何在JavaScript中获取数组的第n个元素？

检查嵌套列表中的长度是否相同

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

ES5的代理替代

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

如何监视应用程序而不是单个进程的CPU使用率？

如何检查字符串输入的格式

解决类Koin的实例时出错

如何自动选择正确的键盘布局？-仅具有一个键盘布局