使用来自数据帧的值作为字符串调用 pyspark 中的函数

earl 发表于 Dev

伯爵

我必须调用一个func_test(spark,a,b)接受两个字符串值的函数并从中创建一个 df 。spark是一个SparkSession变量这两个字符串值是另一个数据帧的两列，并且对于该数据帧的不同行会有所不同。

我无法做到这一点。

到目前为止尝试过的事情：
1。

ctry_df = func_test(spark, df.select("CTRY").first()["CTRY"],df.select("CITY").first()["CITY"])

仅给出 df 的第一条记录的 CTRY 和 CITY。

ctry_df = func_test(spark, df['CTRY'],df['CITY'])

给予Column<b'CTRY'>和Column<b'CITY'>作为价值。

示例：df 是：

+----------+----------+-----------+
|     CTRY |     CITY |    XYZ    |
+----------+----------+-----------+
|      US  |     LA   |      HELLO|                                    
|      UK  |     LN   |      WORLD|
|      SN  |     SN   |      SPARK|
+----------+----------+-----------+

所以，我想先调用 fetch func_test(spark,US,LA)；第二个电话去func_test(spark,UK,LN)；第三个电话是func_test(spark,SN,SN)等等。

Pyspark - 3.7
Spark - 2.2

编辑1：

详细问题：

func_test(spark,string1,string2)是一个接受两个字符串值的函数。在这个函数内部是一组完成的各种数据帧操作。例如：- func_test 中的第一个spark sql 是一个普通的select，在where 子句中使用了这两个变量string1 和string2。这个生成df的spark sql的结果是下一个spark sql的临时表等等。最后，它创建一个函数func_test(spark,string1,string2)返回的 df 。

现在，在主类中，我必须调用这个 func_test 并且两个参数 string1 和 string2 将从数据帧的记录中获取。因此，第一个 func_test 调用将查询生成为select * from dummy where CTRY='US' and CITY='LA'。并且随后的操作发生导致df。第二次调用 func_test 变为select * from dummy where CTRY='UK' and CITY='LN'. 第三次调用变成select * from dummy where CTRY='SN' and CITY='SN'依此类推。

吉加苏奈亚尔

而不是first()使用collect()并遍历循环

collect_vals = df.select('CTRY','CITY').distinct().collect()
for row_col in collect_vals:
    func_test(spark, row_col['CTRY'],row_col['CITY'])

希望这可以帮助！！

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-07-29

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

使用来自数据帧的值作为字符串调用 pyspark 中的函数

使用来自数据帧的值作为字符串调用 pyspark 中的函数

隐藏发件人没有短信PHP

材质UI垂直滑块。如何改变在垂直材料UI滑块导轨的厚度（反应）

在Windows 7中无法删除文件（2）

HttpClient中的角度变化检测

Azure VM启动/停止日志

如何在 Vb.net 中使用函数返回多个值

Powerpoint-条形长度错误的堆积条形图

最新歌剧断断续续的快速拨号和渲染错误

Mac OS X更新后的GRUB 2问题

需要公式以vlookup逗号分隔单个单元格中的值

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

ggplot：对齐多个分面图-所有大小不同的分面

OS X-为什么我需要打开WiFi才能确定最近的位置

用日期数据透视表和日期顺序查询

Java Eclipse中的错误13，如何解决？

如何在Django中使用UUID

加载Microsoft Visual菜单时出现问题

具有if条件的SQL UPDATE

从JSON到JSONL的Python转换

如何在Kod中更改字体？

共享图像将路径放入地址