Pyspark-如何从DataFrame列中获取随机值

泰国

我在DataFrame中有一列,我需要在Pyspark中选择3个随机值。有人可以帮我吗?

+---+
| id|
+---+
|123| 
|245| 
| 12|
|234|
+---+

欲望:

从该列获取具有3个随机值的数组:

**output**: [123, 12, 234]
geopet85

您可以rand()使用函数按随机顺序排序

 df.select('id').orderBy(rand()).limit(3).collect()

有关rand()函数的更多信息,请查看pyspark.sql.functions.rand

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何从PySpark DataFrame中获取随机行?

如何在 Pyspark DataFrame 中扫描列以获取新列

如何在pyspark中获取日期列的最大值

pyspark-如何为DataFrame列的每个浮点值生成相同的随机数?

如何从pyspark的dataframe列中获取第一个值和最后一个值?

如何获取具有Pyspark Dataframe的另一列中给出的多个列的值的列表列?

PySpark:转换 DataFrame 中给定列的值

替换 Pyspark Dataframe 列中的空值

如何在Pyspark中获取映射值?

如何在pyspark中创建具有随机值的新列?

如何获取特定列值pyspark的所有列值?

根据其他列值(PySpark)从DataFrame获取值

PySpark DataFrame:根据列值获取按行排序的列名

如何过滤 Pyspark 中的数组列值

如何对pyspark中整个列的值求和

如何用另一個值替換 Pyspark Dataframe 列中的特定值?

PySpark DataFrame 根据其他列中的值乘以列

如何在pyspark数据框中获取列的唯一值并存储为新列

在pyspark中交换列值

如何从Pyspark的DataFrame获取数字列并计算zscore

从pyspark的dataframe ArrayType列中获取前N个元素

python,pyspark:获取pyspark数据框列值的总和

从PySpark DataFrame中的非null列中选择值

使用 Pyspark 更新 Dataframe 列中的 Minute 和 Seconds 值

检查 PySpark Dataframe 中列的所有值是否相等

根据列最大值获取记录 - 在 PySpark 中

在pyspark中获取数据框列及其值作为变量

获取pyspark中每行最大值的列索引

Pyspark DataFrame如何在所有列中删除带有空值的行?