我们应该在数据框上使用groupBy还是reduceBy

NSP 发表于 Dev

46

Nsp

而groupByapache中的数据框触发时，后来又与数据框中的另一列一起使用聚合。有性能问题吗？可以reduceBy是更好的选择吗？

df.groupBy("primaryKey").agg(max("another column"))

萨加尔邦

在groupBy中，reduce作业将按顺序执行，但在reduceByKey中，内部spark由于知道密钥并针对密钥运行reduce，因此并行运行多个reduce作业。与groupBy相比，ReduceByKey的性能更好。您可以在两者上运行聚合。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-23

我来说两句

0 条评论

登录后参与评论

上一篇：在Woocommerce管理员电子邮件通知中显示产品自定义字段值

相关文章

我们应该在子进程中使用退出还是返回

我们应该在Android中使用getPath还是getAbsolutePath

我们应该在TFS 2015上使用Git还是TFVC

我们应该在使用Actions类进行悬停之前还是悬停之后获得工具提示文本？

我们应该在C＃中使用String.format还是String.replace？

当响应数据是错误消息时，我们应该在REST回复上使用什么响应代码

什么时候应该在我们的项目中使用数据层应用程序？

我应该在数据库端还是在客户端捕获异常？

我应该在数据库还是在代码中申请计数？

我们应该在 sql server 的更新查询中使用 alise 名称吗？

我们应该在C语言中使用exit（）吗？

为什么我们不应该在Java中使用受保护的静态

我们何时应该在Kotlin上使用run，let，apply和with的示例

我们什么时候应该在 CodeIgniter 中使用核心？

为什么我们应该在Angular中的map（）上使用subscribe（）？

我们应该在何时何地使用这些keras LSTM模型

我们应该在观察者模式中使用WeakReference吗？

我们应该在AngularJS中使用jQuery吗？

使用MVVM，我们应该在哪里进行启用或禁用UI的调用？

我们应该在 React Native 中使用类变量吗？

我们应该在OkHttp中使用Google的安全提供程序吗？

为什么我们应该在线程中使用Join？

Promise { <state>: "pending" } - 我们应该在 async / await 之后使用 .then 吗？使困惑

什么时候我们应该在Rust中使用包装与期望

我们应该在哪里使用 fetch_assoc 方法？

我们应该在Rails Factory中使用Faker吗？

我们是否应该在Swift的闭包内部始终使用[unown self]

Xcode中的Storyboard参考，我们应该在哪里使用它？

什么时候我们应该在.exs文件中使用defmodule

TOP 榜单

文章

热门标签

归档