在PySpark中重新排列RDD

阿比舍克·古普塔

我有这样的RDD

[('a', [('d2', 1), ('d1', 1)]),
 ('addition', [('d2', 1)]),
 ('administrative', [('d1', 1)]),
 ('also', [('d1', 1)])]

我希望输出看起来像

a#d2:1;d1:1
addition#d2:1
administrative#d1:1
also#d1:1

我试图首先去除括号以实现输出

rdd_new.map(lambda x: re.sub('\(|\)', '', str(x)))
麦克

您可以使用适当的字符串方法将每个rdd条目映射到一个字符串:

result = rdd.map(lambda r: r[0] + '#' + ';'.join(['%s:%d' % (i[0], i[1]) for i in r[1]]))

result.collect()
# ['a#d2:1;d1:1', 'addition#d2:1', 'administrative#d1:1', 'also#d1:1']

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章