为什么sklearn LatentDirichletAllocation的fit和partial_fit返回不同的结果？

augustin-barillec 发表于 Dev

49

奥古斯丁-巴里耶克

奇怪的是，对于fit和partial_fit，它似乎是完全相同的代码。

您可以在以下链接中查看代码：

https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L478

吉姆·博斯

代码不完全相同；partial_fit用途total_samples：

“ total_samples：int，可选（默认值= 1e6）文档总数。仅在partial_fit方法中使用。”

https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L184

（部分适合）https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L472

（适合）https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L510

万一您感兴趣，以防万一：partial_fit当您的数据集非常大时，最好使用它。因此，您不必进行较小的批量拟合，而不会遇到可能的内存问题，这称为增量学习。

因此，在您的情况下，您应考虑total_samples默认值是1000000.0。因此，如果您不更改此数字，并且实际样本数更大，那么您将从fit方法和中得到不同的结果fit_partial。或者，可能是您在中使用了微型批次，fit_partial而没有覆盖您提供给该fit方法的所有样品。即使您正确执行此操作，也可能会得到不同的结果，如文档中所述：

“增量学习器本身可能无法应付新的/看不见的目标类。在这种情况下，您必须使用classes =参数将所有可能的类传递给第一个partial_fit调用。”
“ [...]选择合适的算法是，随着时间的推移，它们对每个示例的重视程度都不相同。

sklearn文档：https ://scikit-learn.org/0.15/modules/scaling_strategies.html#incremental-learning

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-1

我来说两句

0 条评论

登录后参与评论

上一篇：何时在2D动画中通过SwingTimer使用Thread.sleep

相关文章

partial_fit Sklearn的MLPClassifier

SkLearn SGDRegressor中partial_fit中的批次大小和纪元数

sklearn中带有partial_fit的GridSearchCV / RandomizedSearchCV

为什么“SGDClassifier”中的“partial_fit”会逐渐降低模型精度

为什么sklearn Pipeline调用transform（）的次数比fit（）的次数多？

为什么auc与sklearn和R的逻辑回归如此不同

为什么fit_transform和transform会产生不同的结果？

为什么roc_auc产生在sklearn怪异的结果？

为什么我的 CatBoost 拟合指标与 sklearn 评估指标不同？

为什么我的交叉验证矩阵返回 nan sklearn

MLPRegressor与partial_fit（）

为什么 sklearn.decomposition.PCA.fit_transform(X) 没有乘以 X？

为什么分类器的 score 函数返回的结果与 sklearn 中的 cross_val_score 函数完全不同？

为什么DecisionTreeClassifier（0.23.1 sklearn）根据输入的列顺序给出不同的结果？

为什么我在python的sklearn中使用pipline和不使用pipline获得不同的值

为什么to_char和to_date返回不同的结果

为什么JodaTime和Calendar返回不同的结果

为什么mean（）和mean（aggregate（））返回不同的结果？

为什么Virtuoso SPARQL端点和Jena返回的结果不同？

Keras和Sklearn logreg返回不同的结果

为什么选择求解器会导致sklearn（LogisticRegression）的权重不同

sklearn 模型返回的平均绝对误差为 0，为什么？

为什么sklearn MinMaxScaler（）返回超出范围的值而不是错误？

使用sklearn时，python中的fit，transform和fit_transform有什么区别？

为什么sklearn logistic回归会同时调整权重和截距？

为什么 sklearn MinMaxScaler 归一化稀疏矩阵将只输出 -1 和 1 值

为什么Keras model.fit和model.evaluate之间的准确性不同？

为什么计算的残差在 R 函数 `lm()` 和 `lm.fit()` 之间不同

在Windows和Linux上，为什么boost的managed_mapped_file :: rinkle_to_fit表现不同？

TOP 榜单

文章

热门标签

归档