Apache Mahout和Apache Spark的MLlib有什么区别?

eliasah:

考虑一个products用于电子商务网站的具有1000万种产品的MySQL 数据库。

我正在尝试建立一个分类模块来对产品进行分类。我正在使用Apache Sqoop将数据从MySQL导入到Hadoop。

我想将Mahout用作机器学习框架,以使用其分类算法之一,然后遇到MLlib随附的 Spark

  • 那么这两个框架有什么区别?
  • 主要是什么,每个优点,缺点和局限性是什么?
大卫·格鲁兹曼(David Gruzman):

主要区别将来自基础框架。对于Mahout,它是Hadoop MapReduce;对于MLib,它是Spark。更具体地说-来自每个作业开销的差异
如果您的ML算法映射到单个MR作业-主要区别只是启动开销,对于Hadoop MR来说是几十秒,对于Spark来说是1秒。因此,在模型训练的情况下,它并不是那么重要。
如果您的算法映射到许多作业,情况将有所不同。在这种情况下,每次迭代的开销会有相同的差异,并且可以改变游戏规则。
假设我们需要进行100次迭代,每个迭代需要5秒的集群CPU。

  • 在Spark上:将花费100 * 5 + 100 * 1秒= 600秒。
  • 在Hadoop:MR(Mahout)上,将需要100 * 5 + 100 * 30 = 3500秒。

同时Hadoop MR比Spark更为成熟,并且如果您有大量数据,并且稳定性至关重要,那么我将Mahout视为替代方案。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

Apache Spark中的forEachAsync和forEachPartitionAsync有什么区别?

Apache Spark中的join和cogroup有什么区别

Apache Spark SQLContext与HiveContext有什么区别?

OSGi:Apache Felix和Apache Karaf有什么区别?

Apache flume和Apache Storm有什么区别?

Apache Web Server和Apache HTTPD有什么区别?

在Apache Spark中,使用mapPartitions和结合使用广播变量和map有什么区别?

有什么区别:Django、Apache、AWS

Red Hat AMQ和Apache ActiveMQ有什么区别?

Apache Ignite和Tachyon有什么区别

Apache Commons Bag和Guava MultiSet有什么区别?

Apache Mesos,Mesosphere和DCOS有什么区别?

Apache Karaf 2和3之间有什么区别?

Apache Camel和JBoss Fuse有什么区别?

Apache Beam:DoFn和SimpleFunction有什么区别?

Apache的Mesos和Google的Kubernetes有什么区别

Apache Tiles中的insertDefinition和importAttribute有什么区别?

apache Ambari Server和Agent有什么区别

apache cordova和ionic有什么区别?

Apache Impala和Cloudera Impala有什么区别?

Apache Royale中的id和localId有什么区别?

apache2和httpd有什么区别?

spark mllib 和 spark ml 的向量实现有什么区别?

重新启动apache2和service apache2有什么区别?

Mac上的/ private / etc / apache2和/ etc / apache2有什么区别

org.apache.spark.ml.classification和org.apache.spark.mllib.classification之间的区别

Spark ML和MLLIB软件包有什么区别

Apache Camel:带有示例的Message Translator和Content Enricher有什么区别?

pom.xml和Apache Maven中的有效pom有什么区别?