具有组合键的数据集上的聚合

自言自语

我的输入数据集看起来像ds [（T，U）]。T和U都如下所示。

T => (key1, key2, ...) and U => (value1, value2, ...)

聚合看起来像

ds.groupBy("key1", "key2", ...)
      .agg(
        sum("value1")).alias("value11"),
        sum("value2")).alias("value22"),
        ...
      .select("key1", "key2", ..., "value11", "value22", "fileId", ...)

这是最终输出。是否有更好的方法通过使用groupByKey / reduceGroups或其他性能来实现相同的输出？

通过处理行来生成inout数据集。我们在行内嵌套对象，然后循环遍历以从每行中提取键和值。将这两个过程结合在一起的有效方法是什么？对于这种情况，自定义UDAF会更好吗？

用户名

就性能而言，这是最好的。使用静态类型Dataset和groupByKey/reduceGroups只会降低性能，或充其量只能提供任何改进。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-26

我来说两句

0 条评论

登录后参与评论

使用sqlalchemy的组合键上的关系

Hibernate映射具有空值的组合键

Java在jtree上检测CTRL + X组合键

具有组合键的@OneToOne实体上的JPA @Id

从具有主组合键的关联表中删除

组合键，比较

MongoDB-具有嵌套字段的组组合键

具有实体框架和组合键的通用findById

在组合键上配置多个命令

Windows API-注册具有多个组合键的热键

实体框架6数据库首先不使用组合键在表上生成实体

GeoMesa：具有组合键的Cassandra表

SQL Server索引-在组合键字段上创建非聚集索引有什么好处？

使用jOOQ查询具有多个IN值的组合键

创建数组并组合键

组合键：不太敏感？

SQL：在现有组合键上添加外键

在表上设置仅具有一对零或一对关系的组合键

ZF2 +组合键上的重复表格验证

mongoTemplate查询组合键

选择表中具有两个以上匹配组合键的所有行

组合键上的ManyToMany

您如何约束具有大量非唯一组合的组合键？

AutoHotKey-如何在IF语句上使用组合键？

阅读带有bash脚本的组合键

键映射：组合键到组合键

Autohotkey：替换组合键（但有超时）

组合键上的 Pandas Dataframe Concat/Upsert

什么可以允许多个具有相同组合键的条目进入数据库？

TOP 榜单

文章

具有组合键的数据集上的聚合

具有组合键的数据集上的聚合

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用