這是一個數據框示例(實際上它有更多的列,:
_ID | 答案 | 額外的列 | |
---|---|---|---|
0 | 一種 | [{'title': 'dog', 'value': 'True'}, {'title': 'cat', 'value': 'False'}, {'title': 'bird', 'value': '錯誤的'}] | 某物 |
1 | 乙 | [{'title': 'food', 'value': 'False'}, {'title': 'water', 'value': 'True'}, {'title': 'wine', 'value': '錯誤的'}] | 沒有 |
2 | C | [] | [] |
3 | d | [] | 22 |
我想添加一個額外的列來表示鍵的總字符串長度。因此,對於第一行,它將是 10(“狗”+“貓”+“鳥”),然後是 13,然後是 0,然後是 0。
我試過了,parsed = df.groupby('_id').answers.apply(lambda x: pd.DataFrame(df.values[0])).reset_index()
但它完全弄亂了我的數據集,並以某種方式解析了我的額外列。我正在考慮從這些字典中創建一個額外的數據框,並像df['Length']=df['title'].str.len()
. 那可能嗎?
嘗試:
df = df.join(df['answers'].explode().apply(pd.Series)['title'])
df['extraColumn'] = df.groupby('_id')['title'].transform(lambda x: len(x.str.cat(sep='')))
df.drop_duplicates(subset=['_id'], inplace=True)
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句