主要区别将来自基础框架。对于Mahout,它是Hadoop MapReduce;对于MLib,它是Spark。更具体地说-来自每个作业开销的差异
如果您的ML算法映射到单个MR作业-主要区别只是启动开销,对于Hadoop MR来说是几十秒,对于Spark来说是1秒。因此,在模型训练的情况下,它并不是那么重要。
如果您的算法映射到许多作业,情况将有所不同。在这种情况下,每次迭代的开销会有相同的差异,并且可以改变游戏规则。
假设我们需要进行100次迭代,每个迭代需要5秒的集群CPU。
同时Hadoop MR比Spark更为成熟,并且如果您有大量数据,并且稳定性至关重要,那么我将Mahout视为替代方案。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句