调整是向量加法和减法,可以认为是旋转超平面,使得类0
落在一个部分上,而类1
落在另一部分上。
考虑一个表示感知器模型权重的权1xd
重向量。另外,考虑一个1xd
数据点。那么感知器模型的预测值,在不失一般性的情况下考虑一个线性阈值,将是
这里 '。' 是点积,或
上面方程的超平面是
(为简单起见,忽略权重更新的迭代索引)
让我们考虑,我们有两个类0
和1
,又不失一般性的损失,数据点标记0
落在一个一侧方程1 <超平面的= 0,数据点标记1
的另一边,其中公式1秋季> 0。
这是矢量正常该超平面。与标签数据点之间的角度0
应是更那90
度,并用标签数据点之间数据点1
应小于90
度。
1
,但目前的权重集将其归类为0
。方程 1。这应该是. 方程 1。在这种情况下是,这表明之间的角度和是大于 90
度,这应该是较小的。更新规则是。如果您想象在 2d 中添加向量,这将旋转超平面,使和之间的角度比以前更近且小于90
度数。0
,但目前的权重集将其归类为1
。方程 1。这应该是. 方程 1。在这种情况下是表示之间的角度和是较小那 90
度,这应该是较大的。更新规则是。类似地,这将旋转超平面,使和之间的角度大于90
度。这是反复迭代,超平面被旋转和调整,使得超平面的法线角度90
与类标记为数据点的角度小于度数,而与类标记为的数据点的度数1
大于90
度数0
。
如果 的量级很大就会有很大的变化,因此在过程中会出现问题,并且可能需要更多的迭代才能收敛,这取决于初始权重的大小。因此,对数据点进行归一化或标准化是一个好主意。从这个角度来看,很容易可视化更新规则究竟在做什么(将偏差视为超平面方程 1 的一部分)。现在将其扩展到更复杂的网络和/或阈值。
推荐阅读和参考:神经网络,Raul Rojas 的系统介绍:第 4 章
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句