如何处理增量数据的行号窗口函数

大数据艺术家

我有一个表，它作为为某些 ID 运行的行号窗口函数。现在，每次新数据满载时，都会再次为它们分配新的行号。所以 Row Num 再次在整个数据集上运行，这是非常低效的，因为大量资源被消耗，并使其成为 CPU 密集型。这张桌子每 15 到 30 分钟建立一次。我试图实现同样的事情，但使用增量，然后将增量的结果添加到特定 customer_ID 的最后一个 row_count

因此，当新记录出现时，我想保存该特定记录的最大 row_num 假设 max_row_num = 4 ，现在有两个新记录用于 ID ，因此增量的 row_num 为 1,2。最终输出应该是 4+1 和 4+2 的东西。所以新的行号看起来像 1,2,3,4,5,6 加上 1 和 2 到前一个 Row_num 的最大值。

我实际上想在我的 Pyspark 中实现逻辑！但我对 python 解决方案持开放态度，然后可能会在以后转换为 pyspark DataFrame。

请帮助并提出可能的解决方案

满载——初始表

行数	顾客ID
1	ABC123
2	ABC123
3	ABC123
1	ABC125
2	ABC125
1	ABC225
2	ABC225
3	ABC225
4	ABC225
5	ABC225

增量负载

行数	顾客ID
1	ABC123
2	ABC123
1	ABC125
1	ABC225
2	ABC225
1	ABC330

期望的输出

行数	顾客ID
1	ABC123
2	ABC123
3	ABC123
4	ABC123
1	ABC125
2	ABC125
3	ABC125
1	ABC225
2	ABC225
3	ABC225
4	ABC225
5	ABC225
6	ABC225
1	ABC330

戈登·利诺夫

如果您尝试使用新行号插入值，您可以加入最大现有行号：

insert into full (row_num, customer_id)
    select i.row_number + coalesce(f.max_row_number, 0), i.customer_id
    from incremental i left join
         (select f.customer_id, max(row_number) as max_row_number
          from full f
          group by f.customer_id
         ) f
         on i.customer_id = f.customer_id;

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-09-22

我来说两句

0 条评论

登录后参与评论

上一篇：根据较高的时间范围及时绘制线条，并使用 pine 脚本将它们保持在较低的时间范围内

TOP 榜单

文章

如何处理增量数据的行号窗口函数

如何处理增量数据的行号窗口函数

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何检查字符串输入的格式

检查嵌套列表中的长度是否相同

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何自动选择正确的键盘布局？-仅具有一个键盘布局

如何正确比较 scala.xml 节点？

在令牌内联程序集错误之前预期为 ')'

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

解决类Koin的实例时出错

ES5的代理替代

有什么解决方案可以将android设备用作Cast Receiver？

VBA 自动化错误：-2147221080 (800401a8)

套接字无法检测到断开连接