为什么“SGDClassifier”中的“partial_fit”会逐渐降低模型精度

Pe Dro 发表于 Dev

佩德罗

我正在使用in训练一个在线学习的SVM 分类器。我了解到可以使用.SGDClassifiersklearnpartial_fit

我的模型定义是：

model = SGDClassifier(loss="hinge", penalty="l2", alpha=0.0001, max_iter=3000, tol=1e-3, shuffle=True, verbose=0, learning_rate='invscaling', eta0=0.01, early_stopping=False)

它仅在第一次创建。

为了测试它，我首先使用整个数据训练了我的分类器模型 1，fit并获得了 87% 的模型准确度（使用model.score(X_test, y_test)）。然后，为了演示在线训练，我将相同的数据分成 4 组，然后使用partial_fit. 这是模型 2。

但在这种情况下，我的准确率下降为：87.9 -> 98.89 -> 47.7 -> 29.4。

这可能是什么原因？

佩德罗

这就是我克服它的方式。

通常，partial_fit已经看到准确度容易降低或波动。在某种程度上，这可以通过改组和仅提供整个数据集的一小部分来稍微缓解。但是，对于较大的数据，使用 SGDClassifier/SVM 分类器，在线训练似乎只会降低准确性。

我试着用它做实验，发现使用低学习率有时可以帮助我们。粗略的类比是，在大数据上重复训练相同的模型，导致模型忘记从之前的数据中学到的东西。因此，使用很小的学习率会减慢学习和遗忘的速度！

我们可以使用adaptive提供的学习率功能，而不是手动提供速率sklearn。

model = SGDClassifier(loss="hinge", penalty="l2", alpha=0.0001, max_iter=3000, tol=None, shuffle=True, verbose=0, learning_rate='adaptive', eta0=0.01, early_stopping=False)

这在 [scikit docs] 中描述为：

'adaptive'：eta = eta0，只要训练不断减少。每次 n_iter_no_change 连续 epochs 未能将训练损失减少 tol 或如果 early_stopping 为 True 则无法将验证分数增加 tol 时，当前学习率除以 5。

最初，对于每一轮新数据，我们会得到准确度的下降：

7.9 -> 98.89 -> 47.7 -> 29.4

现在，我们以 100% 的准确率获得了更好的结果，尽管由于增加的 epochs 存在很大的过度拟合范围。我试图证明这个 kaggle notebook 中的观察结果

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-08-14

我来说两句

0 条评论

登录后参与评论

上一篇：Docker - 让我的应用程序使用机密而不是 env。变量

TOP 榜单

文章

为什么“SGDClassifier”中的“partial_fit”会逐渐降低模型精度

为什么“SGDClassifier”中的“partial_fit”会逐渐降低模型精度

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用