我现在正在使用Spark,但是我发现在Spark SQL中使用ORDER BY对DataFrame进行排序非常慢。那么如何在不使用Spark SQL的情况下对DataFrame进行排序呢?
我不确定我是否完全了解您的需求。
无论如何,如果要对DF进行排序,则可以使用sortBy(如果是(K,V),则可以使用sortByKey)
例如,如果我们假设有一个DF(在本例中为Spark SQL),则可以像这样对它进行排序:
val sqlResult = sqlContext.sql("select first_column, second_column from logs").toDF()
val result = sqlResult.sortBy(x=>x._1) // first column sorting
如前所述,您可以对任何DF进行排序,但我只想展示另一种使用Spark SQL“访问”数据,然后使用Spark核心功能对数据进行排序的方法。
希望对您有所帮助!
FF
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句