Comment créer une trame de données pandas à partir de json imbriqué avec un dictionnaire

Towelie Publié le Dev

Serviette

J'essaie de créer un fichier json de cadre de données pandas. J'ai vu plusieurs solutions à ce problème qui utilisent des fonctions intégrées from_dict/json_normalize mais je ne peux pas l'appliquer à mon code. Voici comment mes données sont structurées dans un fichier json :

     "data": [
   {
      "groups": {
         "data": [
               {
               "group": "Math",
               "year_joined": "2009"
               },
               {
               "group_name": "History",
               "year_joined": "2011"
               },
               {
               "group_name": "Biology",
               "year_joined": "2010"
               }
         ]
      },
      "id": "12512"
   },

Lorsque j'essaie de normaliser ces données avec les pandas, procédez comme suit :

path = 'mypath'
f = open(path)
data = json.load(f)

test = pd.json_normalize(
            data['data'], 
            errors='ignore')

Je viens de recevoir quelque chose comme ça :

    id      groups.data
0   12512   [{'group_name': 'Math', 'year_joined': '2009', 'gr...
1   23172   [{'group_name': 'Chemistry', 'year_joined': '2005'...

Je veux que ces données ressemblent à ceci (solution 1) :

    id      group     year_joined
0   12512   group1    year1
1   12512   group2    year2
2   12512   group3    year3

Ou comme ceci (solution 2) :

    id      group                   year_joined
0   12512   group1,group2,group3    year1,year2,year3
1   23172   group4,group5           year4,year5

Comment puis-je y parvenir? J'ai essayé de passer le paramètre 'record_path' à la fonction 'json_normalize' mais cela ne change rien. J'ai essayé d'utiliser la fonction 'DataFrame.from_dict' pour contourner ce problème, mais j'ai échoué. La seule façon dont j'ai pu accéder à la solution 1 était de créer simplement plusieurs boucles qui parcouraient tout dans le fichier json et de l'ajouter à une liste séparée. Cela fonctionne un peu mais prend beaucoup de temps sur des ensembles de données plus volumineux.

Comment puis-je utiliser les outils pandas intégrés pour traiter les fichiers qui sont imbriqués en tant que dictionnaires dans la 3ème couche du fichier, comme présenté ci-dessus ?

Merci d'avance pour toutes réponses

Mec

Vous devez collecter les informations du datadictionnaire

solution 1

d = {}
for group in data["data"]:
    groups = [x["group_name"] for x in group['groups']["data"]]
    d['id'] = d.get('id', []) + [group['id']] * len(groups)
    d['group'] = d.get('group', []) + groups
    d['year_joined'] = d.get('year_joined', []) + [x["year_joined"] for x in group['groups']["data"]]

df = pd.DataFrame(d)

Sortir

      id      group year_joined
0  12512       Math        2009
1  12512    History        2011
2  12512    Biology        2010
3  23172  Chemistry        2007
4  23172  Economics        2008

solution 2

d = {}
for group in data["data"]:
    d['id'] = d.get('id', []) + [group['id']]
    d['group'] = d.get('group', []) + [','.join(x["group_name"] for x in group['groups']["data"])]
    d['year_joined'] = d.get('year_joined', []) + [','.join(x["year_joined"] for x in group['groups']["data"])]

df = pd.DataFrame(d)

Sortir

      id                 group     year_joined
0  12512  Math,History,Biology  2009,2011,2010
1  23172   Chemistry,Economics       2007,2008

Cet article est collecté sur Internet, veuillez indiquer la source lors de la réimpression.

En cas d'infraction, veuillez [email protected] Supprimer.

modifier le2021-09-5

laisse moi dire quelques mots

0commentaires

connexionAprès avoir participé à la revue

Article précédent:Comment ajouter du svg en html, en utilisant JavaScript DOM ?

TOP liste

article

Comment créer une trame de données pandas à partir de json imbriqué avec un dictionnaire

Comment créer une trame de données pandas à partir de json imbriqué avec un dictionnaire

Comment utiliser HttpClient avec TOUT cert ssl, quelle que soit la « mauvaise » est

Comment afficher du texte au milieu de div avec une couleur d'arrière-plan différente?

Résultat de l'échantillonneur JMeter : comprendre le temps de chargement, le temps de connexion et la latence

Modbus Python Schneider PM5300

Pourquoi Object.hashCode () ne suit pas la convention du code Java

Comment faire une recherche partielle et obtenir un score pertinent dans Elasticsearch

Existe-t-il un moyen de voir si mon bot est hors ligne ?

Comment choisir le nombre de fragments et de répliques Elasticsearch

optimiser les opérations du serveur avec elasticsearch: traitement des filigranes de disque bas

Comment changer la couleur de la police dans R?

Autocomplete avec java, Redis, Recherche élastique, Mongo

MasterService d'ElasticSearch prend trop de temps pour calculer l'état du cluster et lancer ProcessClusterEventTimeoutException

Comment vérifier si un utilisateur spécifique a un rôle? Discord js

Spring @RequestParam DateTime format comme ISO 8601 Date Heure facultative

Comment analyser un hachage Ruby plat en un hachage imbriqué?

Comment créer une nouvelle application dans Dropbox avec des autorisations complètes

Quelque chose dans le cluster Elasticsearch 7.4 devient de plus en plus lent avec les délais de lecture de temps en temps

Ajustement non linéaire avec R

php ajouter et fusionner des données de deux tables

Exporter la table de l'arborescence vers CSV avec mise en forme

帶有 Spring Boot 和 Azure AD 的 KeyCloak