RDD 的类型是列表。
rdd = sc.parallelize([[1,3], [3,4]])
我想计算每个标量值,例如1,3,4
.
我期待一个像这样的字典: {1:1, 3:2, 4:1}
您可以先用flatMap
,然后将其展平countByValue
:
rdd.flatMap(lambda x: x).countByValue()
# defaultdict(<class 'int'>, {1: 1, 3: 2, 4: 1})
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句