Spark scala 中 GroupByKey($"col") 和 GroupBy($"col") 的区别

Sundeep Pidugu

使用.GroupByKey.GroupBy何时使用 DF 的列名作为参数的根本区别是什么?

哪一个时间效率高,每个人到底是什么意思,请在我通过一些例子时详细解释一下,但这很令人困惑。

用户10546212

没有groupByKey方法可以Column作为参数。有采用函数的方法,或者:

def groupByKey[K](func: MapFunction[T, K], encoder: Encoder[K]): KeyValueGroupedDataset[K, T] 

或者

def groupByKey[K](func: (T) ⇒ K)(implicit arg0: Encoder[K]): KeyValueGroupedDataset[K, T] 

相比之下groupBy需要Columns

def groupBy(cols: Column*): RelationalGroupedDataset 

或者 String

def groupBy(col1: String, cols: String*): RelationalGroupedDataset 

区别应该很明显 - 前两个返回KeyValueGroupedDataset(用于处理“功能”,“强类型 API,如mapGroupsreduceGroups), while the later methods returnRelationalGroupedDataset`(用于处理类似 SQL 的 API)。

一般见:

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

Bootstrap中的col-lg-*,col-md- *和col-sm- *有什么区别?

data [,“ col”]和data $ col之间的区别

df[df['col a']] 和 df['col a'] 的区别?

Spark Scala:GroupByKey和排序

蜂房:NULL col_name和NULL作为表DDL中的col_name之间的区别

“ NOT IN table.col”和“ NOT IN SELECT col FROM table”之间的区别

na()。drop()和filter(col.isNotNull)之间的区别(Apache Spark)

df.loc ['col name'],df.loc [index] ['col name']和df.loc [index,'col name']在熊猫中的区别?

Scala,Spark中==和===之间的区别

spark中partitionBy和groupBy有什么区别

Polars 中 df.with_column 和 df['new_col'] = func(df['old_col']) 之间创建新列有什么区别

sys.col $和sys.coltype $之间的区别

Spark Scala groupByKey和flatMapGroups给出空的数据框

根据其他列的值计算 pandas 中的列(如果 col1<col2 和 col2 > col1,则 col3 = 1)

Groupby 和减去 Spark Scala

从Col1和Col2中的文本在Col3中写入不匹配的数据

ggplot与col和fill

“ col”和“ row”响应

如何将Spark DF Col旋转到行中

如何使用 col-12 显示前四个记录,重置记录将显示在 col-8(col-6 和 col-6)之类的内容中

SQL在通配符列上联接/如果表中的col1在col1和col2上联接,否则在col2上联接

Pyspark或Pandas-比较DF1的col1和DF2的col2并基于col2删除col1中的重复单词

了解Bootstrap 3中的网格类(col-sm-#和col-lg-#)

查询将行中的max(col)和关联的col链接到不同的表

在 read_csv() 中,如何结合使用 `col_names = TRUE` 和 `col_character`

Bootstrap 4 中的隐形元素和 Col-X 元素

bootstrap 中 col 的不同高度和位置

R //结合应用和R中的条件查找函数//在给定Col B和Col C满足要求的情况下求和col A中的值

spark scala 数据框 groupBy 和 orderBy