将Pandas DataFrame转换为嵌套字典

136

对：

我正在寻找一种将DataFrame转换为嵌套字典的通用方法

这是一个示例数据框

    name    v1  v2  v3
0   A       A1  A11 1
1   A       A2  A12 2
2   B       B1  B12 3
3   C       C1  C11 4
4   B       B2  B21 5
5   A       A2  A21 6

列数可能有所不同，列名也可能有所不同。

像这样：

{
'A' : { 
    'A1' : { 'A11' : 1 }
    'A2' : { 'A12' : 2 , 'A21' : 6 }} , 
'B' : { 
    'B1' : { 'B12' : 3 } } , 
'C' : { 
    'C1' : { 'C11' : 4}}
}

什么是实现这一目标的最佳方法？

我最接近的是该zip函数，但没有设法使其工作于一个以上级别（两列）。

DSM：

我不明白为什么B2您的词典中没有。我也不确定在重复的列值的情况下要发生什么（我是说除最后一个列之外的所有列。）假设第一个是一个疏忽，我们可以使用递归：

def recur_dictify(frame):
    if len(frame.columns) == 1:
        if frame.values.size == 1: return frame.values[0][0]
        return frame.values.squeeze()
    grouped = frame.groupby(frame.columns[0])
    d = {k: recur_dictify(g.ix[:,1:]) for k,g in grouped}
    return d

产生

>>> df
  name  v1   v2  v3
0    A  A1  A11   1
1    A  A2  A12   2
2    B  B1  B12   3
3    C  C1  C11   4
4    B  B2  B21   5
5    A  A2  A21   6
>>> pprint.pprint(recur_dictify(df))
{'A': {'A1': {'A11': 1}, 'A2': {'A12': 2, 'A21': 6}},
 'B': {'B1': {'B12': 3}, 'B2': {'B21': 5}},
 'C': {'C1': {'C11': 4}}}

不过，使用非熊猫方法可能会更简单：

def retro_dictify(frame):
    d = {}
    for row in frame.values:
        here = d
        for elem in row[:-2]:
            if elem not in here:
                here[elem] = {}
            here = here[elem]
        here[row[-2]] = row[-1]
    return d

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。