Apache Mahout和Apache Spark的MLlib有什么区别？

eliasah：

考虑一个products用于电子商务网站的具有1000万种产品的MySQL 数据库。

我正在尝试建立一个分类模块来对产品进行分类。我正在使用Apache Sqoop将数据从MySQL导入到Hadoop。

我想将Mahout用作机器学习框架，以使用其分类算法之一，然后遇到MLlib随附的 Spark

那么这两个框架有什么区别？
主要是什么，每个优点，缺点和局限性是什么？

大卫·格鲁兹曼（David Gruzman）：

主要区别将来自基础框架。对于Mahout，它是Hadoop MapReduce；对于MLib，它是Spark。更具体地说-来自每个作业开销的差异
如果您的ML算法映射到单个MR作业-主要区别只是启动开销，对于Hadoop MR来说是几十秒，对于Spark来说是1秒。因此，在模型训练的情况下，它并不是那么重要。
如果您的算法映射到许多作业，情况将有所不同。在这种情况下，每次迭代的开销会有相同的差异，并且可以改变游戏规则。
假设我们需要进行100次迭代，每个迭代需要5秒的集群CPU。

在Spark上：将花费100 * 5 + 100 * 1秒= 600秒。
在Hadoop：MR（Mahout）上，将需要100 * 5 + 100 * 30 = 3500秒。

同时Hadoop MR比Spark更为成熟，并且如果您有大量数据，并且稳定性至关重要，那么我将Mahout视为替代方案。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-09-23

我来说两句

0 条评论

登录后参与评论

上一篇：webstorm是否有一些console.log或console.info的快捷方式

TOP 榜单

文章

Apache Mahout和Apache Spark的MLlib有什么区别？

Apache Mahout和Apache Spark的MLlib有什么区别？

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Java Eclipse中的错误13，如何解决？

在Windows 7中无法删除文件（2）

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

套接字无法检测到断开连接

带有错误“ where”条件的查询如何返回结果？

有什么解决方案可以将android设备用作Cast Receiver？

Mac OS X更新后的GRUB 2问题

ggplot：对齐多个分面图-所有大小不同的分面

验证REST API参数

如何从视图一次更新多行（ASP.NET - Core）

尝试反复更改屏幕上按钮的位置 - kotlin android studio

计算数据帧中每行的NA

检索角度选择div的当前值

离子动态工具栏背景色

UITableView的项目向下滚动后更改颜色，然后快速备份

VB.net将2条特定行导出到DataGridView

蓝屏死机没有修复解决方案

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException