解析數據框中的字典列表

未來數據工程師

這是一個數據框示例(實際上它有更多的列,:

_ID 答案 額外的列
0 一種 [{'title': 'dog', 'value': 'True'}, {'title': 'cat', 'value': 'False'}, {'title': 'bird', 'value': '錯誤的'}] 某物
1 [{'title': 'food', 'value': 'False'}, {'title': 'water', 'value': 'True'}, {'title': 'wine', 'value': '錯誤的'}] 沒有
2 C [] []
3 d [] 22

我想添加一個額外的列來表示鍵的總字符串長度。因此,對於第一行,它將是 10(“狗”+“貓”+“鳥”),然後是 13,然後是 0,然後是 0。

我試過了,parsed = df.groupby('_id').answers.apply(lambda x: pd.DataFrame(df.values[0])).reset_index()但它完全弄亂了我的數據集,並以某種方式解析了我的額外列。我正在考慮從這些字典中創建一個額外的數據框,並像df['Length']=df['title'].str.len(). 那可能嗎?

穆罕默德·哈桑

嘗試:

df = df.join(df['answers'].explode().apply(pd.Series)['title'])
df['extraColumn'] = df.groupby('_id')['title'].transform(lambda x: len(x.str.cat(sep='')))
df.drop_duplicates(subset=['_id'], inplace=True)

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章