奇怪的是,对于fit和partial_fit,它似乎是完全相同的代码。
您可以在以下链接中查看代码:
https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L478
代码不完全相同;partial_fit
用途total_samples
:
“ total_samples:int,可选(默认值= 1e6)文档总数。仅在partial_fit方法中使用。”
https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L184
(部分适合)https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L472
(适合)https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L510
万一您感兴趣,以防万一:partial_fit
当您的数据集非常大时,最好使用它。因此,您不必进行较小的批量拟合,而不会遇到可能的内存问题,这称为增量学习。
因此,在您的情况下,您应考虑total_samples
默认值是1000000.0
。因此,如果您不更改此数字,并且实际样本数更大,那么您将从fit
方法和中得到不同的结果fit_partial
。或者,可能是您在中使用了微型批次,fit_partial
而没有覆盖您提供给该fit
方法的所有样品。即使您正确执行此操作,也可能会得到不同的结果,如文档中所述:
sklearn文档:https ://scikit-learn.org/0.15/modules/scaling_strategies.html#incremental-learning
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句