Spark scala 中 GroupByKey($"col") 和 GroupBy($"col") 的区别

Sundeep Pidugu

使用.GroupByKey和.GroupBy何时使用 DF 的列名作为参数的根本区别是什么？

哪一个时间效率高，每个人到底是什么意思，请在我通过一些例子时详细解释一下，但这很令人困惑。

用户10546212

没有groupByKey方法可以Column作为参数。有采用函数的方法，或者：

def groupByKey[K](func: MapFunction[T, K], encoder: Encoder[K]): KeyValueGroupedDataset[K, T]

或者

def groupByKey[K](func: (T) ⇒ K)(implicit arg0: Encoder[K]): KeyValueGroupedDataset[K, T]

相比之下groupBy需要Columns：

def groupBy(cols: Column*): RelationalGroupedDataset

或者 String

def groupBy(col1: String, cols: String*): RelationalGroupedDataset

区别应该很明显 - 前两个返回KeyValueGroupedDataset（用于处理“功能”，“强类型 API，如mapGroups或reduceGroups), while the later methods returnRelationalGroupedDataset`（用于处理类似 SQL 的 API）。

一般见：

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-07-7

我来说两句

0 条评论

登录后参与评论

上一篇：apt 更新谷歌云 EXPKEYSIG Err:3 公钥不可用

Bootstrap中的col-lg-，col-md- 和col-sm- *有什么区别？

data [，“ col”]和data $ col之间的区别

df[df['col a']] 和 df['col a'] 的区别？

Spark Scala：GroupByKey和排序

蜂房：NULL col_name和NULL作为表DDL中的col_name之间的区别

“ NOT IN table.col”和“ NOT IN SELECT col FROM table”之间的区别

na（）。drop（）和filter（col.isNotNull）之间的区别（Apache Spark）

df.loc ['col name']，df.loc [index] ['col name']和df.loc [index，'col name']在熊猫中的区别？

Scala，Spark中==和===之间的区别

spark中partitionBy和groupBy有什么区别

Polars 中 df.with_column 和 df['new_col'] = func(df['old_col']) 之间创建新列有什么区别

sys.col $和sys.coltype $之间的区别

Spark Scala groupByKey和flatMapGroups给出空的数据框

根据其他列的值计算 pandas 中的列（如果 col1<col2 和 col2 > col1，则 col3 = 1）

Groupby 和减去 Spark Scala

从Col1和Col2中的文本在Col3中写入不匹配的数据

ggplot与col和fill

“ col”和“ row”响应

如何将Spark DF Col旋转到行中

如何使用 col-12 显示前四个记录，重置记录将显示在 col-8（col-6 和 col-6）之类的内容中

SQL在通配符列上联接/如果表中的col1在col1和col2上联接，否则在col2上联接

Pyspark或Pandas-比较DF1的col1和DF2的col2并基于col2删除col1中的重复单词

了解Bootstrap 3中的网格类（col-sm-＃和col-lg-＃）

查询将行中的max（col）和关联的col链接到不同的表

在 read_csv() 中，如何结合使用 `col_names = TRUE` 和 `col_character`

Bootstrap 4 中的隐形元素和 Col-X 元素

bootstrap 中 col 的不同高度和位置

R //结合应用和R中的条件查找函数//在给定Col B和Col C满足要求的情况下求和col A中的值

spark scala 数据框 groupBy 和 orderBy

TOP 榜单

文章

Spark scala 中 GroupByKey($"col") 和 GroupBy($"col") 的区别

Spark scala 中 GroupByKey($"col") 和 GroupBy($"col") 的区别

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

SQL Server中的非确定性数据类型

Swift 2.1-对单个单元格使用UITableView

如何避免每次重新编译所有文件？

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

应用发明者仅从列表中选择一个随机项一次

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

HttpClient中的角度变化检测

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何了解DFT结果

Camunda-根据分配的组过滤任务列表

错误：找不到存根。请确保已调用spring-cloud-contract：convert

为什么此后台线程中未处理的异常不会终止我的进程？

构建类似于Jarvis的本地语言应用程序

使用分隔符将成对相邻的数组元素相互连接

您如何通过 Nativescript 中的 Fetch 发出发布请求？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

使用React / Javascript在Wordpress API中通过ID获取选择的多个帖子/页面

使用 text() 獲取特定文本節點的 XPath