我们应该在数据框上使用groupBy还是reduceBy

Nsp

groupByapache中的数据框触发时,后来又与数据框中的另一列一起使用聚合。有性能问题吗?可以reduceBy是更好的选择吗?

df.groupBy("primaryKey").agg(max("another column"))
萨加尔邦

在groupBy中,reduce作业将按顺序执行,但在reduceByKey中,内部spark由于知道密钥并针对密钥运行reduce,因此并行运行多个reduce作业。与groupBy相比,ReduceByKey的性能更好。您可以在两者上运行聚合。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

我们应该在子进程中使用退出还是返回

我们应该在Android中使用getPath还是getAbsolutePath

我们应该在TFS 2015上使用Git还是TFVC

我们应该在使用Actions类进行悬停之前还是悬停之后获得工具提示文本?

我们应该在C#中使用String.format还是String.replace?

当响应数据是错误消息时,我们应该在REST回复上使用什么响应代码

什么时候应该在我们的项目中使用数据层应用程序?

我应该在数据库端还是在客户端捕获异常?

我应该在数据库还是在代码中申请计数?

我们应该在 sql server 的更新查询中使用 alise 名称吗?

我们应该在C语言中使用exit()吗?

为什么我们不应该在Java中使用受保护的静态

我们何时应该在Kotlin上使用run,let,apply和with的示例

我们什么时候应该在 CodeIgniter 中使用核心?

为什么我们应该在Angular中的map()上使用subscribe()?

我们应该在何时何地使用这些keras LSTM模型

我们应该在观察者模式中使用WeakReference吗?

我们应该在AngularJS中使用jQuery吗?

使用MVVM,我们应该在哪里进行启用或禁用UI的调用?

我们应该在 React Native 中使用类变量吗?

我们应该在OkHttp中使用Google的安全提供程序吗?

为什么我们应该在线程中使用Join?

Promise { <state>: "pending" } - 我们应该在 async / await 之后使用 .then 吗?使困惑

什么时候我们应该在Rust中使用包装与期望

我们应该在哪里使用 fetch_assoc 方法?

我们应该在Rails Factory中使用Faker吗?

我们是否应该在Swift的闭包内部始终使用[unown self]

Xcode中的Storyboard参考,我们应该在哪里使用它?

什么时候我们应该在.exs文件中使用defmodule