批量归一化：固定样本还是按维度划分的不同样本？

Peter Kim 发表于 Dev

175

彼得·金

当我阅读论文“批量标准化：通过减少内部协变量偏移来加速深度网络训练”时，我遇到了一些问题。

在论文中说：

由于来自训练数据的m个示例可以估计所有训练数据的均值和方差，因此我们使用小批量训练批归一化参数。

我的问题是：

他们是在选择m个示例，然后同时拟合批次规范参数，还是为每个输入维选择不同的m个示例集？

例如训练集是由x(i) = (x1,x2,...,xn)：n维固定批次M = {x(1),x(2),...,x(N)}，执行拟合所有gamma1~gamman和beta1~betan。

与

对于gamma_i，beta_i选择不同批次M_i = {x(1)_i,...,x(m)_i}

格言

我还没有在交叉验证和数据科学上找到这个问题，所以我只能在这里回答。如有必要，随时进行迁移。

使用移动平均值一次计算每个迷你批中所有维度的均值和方差。这是TF代码中的样子：

mean, variance = tf.nn.moments(incoming, axis)
update_moving_mean = moving_averages.assign_moving_average(moving_mean, mean, decay)
update_moving_variance = moving_averages.assign_moving_average(moving_variance, variance, decay)
with tf.control_dependencies([update_moving_mean, update_moving_variance]):
  return tf.identity(mean), tf.identity(variance)

您不必担心技术细节，这是正在发生的事情：

首先，沿着批次轴计算整个批次的mean和。它们都是向量（更确切地说是张量）。varianceincoming
然后，当前值moving_mean和moving_variance通过assign_moving_average调用进行更新，该调用基本上是这样计算的：variable * decay + value * (1 - decay)。

每次执行batchnorm时，它都会知道一个当前批次和一些先前批次的统计信息。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-28

我来说两句

0 条评论

登录后参与评论

TensorFlow 批量归一化维度

批量归一化：固定样本还是按维度划分的不同样本？

批量归一化：固定样本还是按维度划分的不同样本？

Android Studio Kotlin：提取为常量

IE 11中的FormData未定义

计算数据帧R中的字符串频率

如何在R中转置数据

如何使用Redux-Toolkit重置Redux Store

Excel 2016图表将增长与4个参数进行比较

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

OpenCv：改变 putText() 的位置

ActiveModelSerializer仅显示关联的ID

算术中的c ++常量类型转换

如何开始为Ubuntu开发

将加号/减号添加到jQuery菜单

去噪自动编码器和常规自动编码器有什么区别？

获取并汇总所有关联的数据

OpenGL纹理格式的颜色错误

在 React Native Expo 中使用 react-redux 更改另一个键的值

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

TreeMap中的自定义排序

Redux动作正常，但减速器无效

如何对treeView的子节点进行排序