而groupBy
apache中的数据框触发时,后来又与数据框中的另一列一起使用聚合。有性能问题吗?可以reduceBy
是更好的选择吗?
df.groupBy("primaryKey").agg(max("another column"))
在groupBy中,reduce作业将按顺序执行,但在reduceByKey中,内部spark由于知道密钥并针对密钥运行reduce,因此并行运行多个reduce作业。与groupBy相比,ReduceByKey的性能更好。您可以在两者上运行聚合。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句