我在DataFrame中有一列,我需要在Pyspark中选择3个随机值。有人可以帮我吗?
+---+
| id|
+---+
|123|
|245|
| 12|
|234|
+---+
欲望:
从该列获取具有3个随机值的数组:
**output**: [123, 12, 234]
您可以rand()
先使用函数按随机顺序排序:
df.select('id').orderBy(rand()).limit(3).collect()
有关rand()
函数的更多信息,请查看pyspark.sql.functions.rand。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句