如何在不使用Spark SQL的情况下在Spark中对数据帧进行排序?

Hai Nguyen Hoang

我现在正在使用Spark,但是我发现在Spark SQL中使用ORDER BY对DataFrame进行排序非常慢。那么如何在不使用Spark SQL的情况下对DataFrame进行排序呢?

法比奥·范托尼(Fabio Fantoni)

我不确定我是否完全了解您的需求。

无论如何,如果要对DF进行排序,则可以使用sortBy(如果是(K,V),则可以使用sortByKey)

例如,如果我们假设有一个DF(在本例中为Spark SQL),则可以像这样对它进行排序:

val sqlResult = sqlContext.sql("select first_column, second_column from logs").toDF()
val result = sqlResult.sortBy(x=>x._1) // first column sorting

如前所述,您可以对任何DF进行排序,但我只想展示另一种使用Spark SQL“访问”数据,然后使用Spark核心功能对数据进行排序的方法。

希望对您有所帮助!

FF

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何在不使用GROUP BY或PARTITION BY的情况下在Oracle SQL中对数据进行分组

如何在不使用合并的情况下在本地系统的单个文件中写入spark数据帧

如何在不使用展开的情况下使用 mongodb 中的数组元素对数据进行排序

如何在不使用RANK()或rownums函数的情况下在SQL Server中按组对表行进行明智排序?

Spark SQL:如何在不使用rdd.cache()的情况下缓存SQL查询结果

如何在不使用boost或创建模板的情况下在c ++中同时对两个向量进行排序?

如何在不使用外部API的情况下在Java中对10Gb文件进行排序

如何在不使用数组的情况下按升序对数字进行排序?

如何在不使用Bootstrap的情况下在客户端对JSON数据进行分页?

如何在不使用视图的情况下在MySQL数据透视表上进行搜索

如何在不使用MS SQL Server Management Studio的情况下在SQL Server中更改默认数据库?

如何在不使用JQuery函数的情况下在angular 4中进行深度复制?

如何在不使用@GlideModule的情况下在库模块中添加超时以进行滑动

如何在不使用 Angular 中的属性绑定的情况下在父子之间进行通信?

如何在不使用array_push的情况下在laravel 5.4中获取数据

如何在不使用spark-submit的情况下将java程序中的spark作业提交到独立的spark集群?

如何在没有for循环的情况下在python中对数组进行采样

如何在不使用Spark软件包的情况下读取R中的实木复合地板文件?

如何在不使用java中的compare()方法的情况下进行选择排序?

如何在没有汇总的情况下对数据帧进行分组然后转置

如何在不更改顺序的情况下逐行读取数据帧?在Spark Scala中

如何在不使用CMake的情况下在KDevelop Ninja项目中进行构建?

如何在不使用查询语法的情况下在Entity Framework中进行左外部联接?

如何在不使用对话框的情况下在Azure Active Directory中进行授权?

如何在SQL中添加序列/对数据进行排序

如何在SQL中不使用“ ORDER BY”对升序进行排序

在T-SQL中如何在不使用VALUES关键字的情况下在表中创建行

如何在不使用稳定排序的情况下使用Python进行迭代排序?

如何在不使用JOOQ代码生成的情况下在Pojo中获取数据库行?