Spark:列表类型 RDD 的 collectByValue 如何

玫瑰趣

RDD 的类型是列表。

rdd = sc.parallelize([[1,3], [3,4]])

我想计算每个标量值,例如1,3,4.

我期待一个像这样的字典: {1:1, 3:2, 4:1}

西多姆

您可以先用flatMap,然后将其展平countByValue

rdd.flatMap(lambda x: x).countByValue()
# defaultdict(<class 'int'>, {1: 1, 3: 2, 4: 1})

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章