如何在不使用Spark SQL的情况下在Spark中对数据帧进行排序？

Hải Nguyễn Hoàng 发表于 Dev

76

Hai Nguyen Hoang

我现在正在使用Spark，但是我发现在Spark SQL中使用ORDER BY对DataFrame进行排序非常慢。那么如何在不使用Spark SQL的情况下对DataFrame进行排序呢？

法比奥·范托尼（Fabio Fantoni）

我不确定我是否完全了解您的需求。

无论如何，如果要对DF进行排序，则可以使用sortBy（如果是（K，V），则可以使用sortByKey）

例如，如果我们假设有一个DF（在本例中为Spark SQL），则可以像这样对它进行排序：

val sqlResult = sqlContext.sql("select first_column, second_column from logs").toDF()
val result = sqlResult.sortBy(x=>x._1) // first column sorting

如前所述，您可以对任何DF进行排序，但我只想展示另一种使用Spark SQL“访问”数据，然后使用Spark核心功能对数据进行排序的方法。

希望对您有所帮助！

FF

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-03-30

我来说两句

0 条评论

登录后参与评论

上一篇：如何使def从同一控制器的另一个def继承Rails 4

相关文章

如何在不使用GROUP BY或PARTITION BY的情况下在Oracle SQL中对数据进行分组

如何在不使用合并的情况下在本地系统的单个文件中写入spark数据帧

如何在不使用展开的情况下使用 mongodb 中的数组元素对数据进行排序

如何在不使用RANK（）或rownums函数的情况下在SQL Server中按组对表行进行明智排序？

Spark SQL：如何在不使用rdd.cache（）的情况下缓存SQL查询结果

如何在不使用boost或创建模板的情况下在c ++中同时对两个向量进行排序？

如何在不使用外部API的情况下在Java中对10Gb文件进行排序

如何在不使用数组的情况下按升序对数字进行排序？

如何在不使用Bootstrap的情况下在客户端对JSON数据进行分页？

如何在不使用视图的情况下在MySQL数据透视表上进行搜索

如何在不使用MS SQL Server Management Studio的情况下在SQL Server中更改默认数据库？

如何在不使用JQuery函数的情况下在angular 4中进行深度复制？

如何在不使用@GlideModule的情况下在库模块中添加超时以进行滑动

如何在不使用 Angular 中的属性绑定的情况下在父子之间进行通信？

如何在不使用array_push的情况下在laravel 5.4中获取数据

如何在不使用spark-submit的情况下将java程序中的spark作业提交到独立的spark集群？

如何在没有for循环的情况下在python中对数组进行采样

如何在不使用Spark软件包的情况下读取R中的实木复合地板文件？

如何在不使用java中的compare()方法的情况下进行选择排序？

如何在没有汇总的情况下对数据帧进行分组然后转置

如何在不更改顺序的情况下逐行读取数据帧？在Spark Scala中

如何在不使用CMake的情况下在KDevelop Ninja项目中进行构建？

如何在不使用查询语法的情况下在Entity Framework中进行左外部联接？

如何在不使用对话框的情况下在Azure Active Directory中进行授权？

如何在SQL中添加序列/对数据进行排序

如何在SQL中不使用“ ORDER BY”对升序进行排序

在T-SQL中如何在不使用VALUES关键字的情况下在表中创建行

如何在不使用稳定排序的情况下使用Python进行迭代排序？

如何在不使用JOOQ代码生成的情况下在Pojo中获取数据库行？

TOP 榜单

文章

热门标签

归档