Les pandas imbriqués groupby donnent des résultats inattendus

CookieMaster

Je travaille sur un problème où j'utilise un groupby.apply imbriqué sur un pandas DataFrame. Pendant la première application, j'ajoute une colonne que j'utilise pour le deuxième groupby.apply interne. Le résultat combiné me semble défectueux. Quelqu'un peut-il m'expliquer pourquoi les phénomènes ci-dessous se produisent et comment y remédier de manière fiable?

Voici un exemple minimal:

import numpy as np
import pandas as pd

T = np.array( [
        [1,1,1],
        [1,1,1],
        [1,2,2],
        [1,2,2],
        [2,1,3],
        [2,1,3],
        [2,2,4],
        [2,2,4],
])

df = pd.DataFrame(T, columns= ['a','b','c' ])

print(df)


def foo2(x):
    return x

def foo(x):

    print("*" * 80 )

    # Add column d and groupby/apply on column 'd'
    x['d'] = [1, 1, 2, 2]
    x = x.groupby('d').apply(foo2)

    print(x)

    print("*" * 80)
    return x


# Apply first groupby/apply on column 'a'
df = df.groupby('a').apply( foo)

print("*"*80)
print("*"*80)

print(df)

Lorsque j'exécute le code ci-dessus sur mon ordinateur portable Windows, j'obtiens le résultat attendu

     a  b  c  d
a              
1 0  1  1  1  1
  1  1  1  1  1
  2  1  2  2  2
  3  1  2  2  2
2 4  2  1  3  1
  5  2  1  3  1
  6  2  2  4  2
  7  2  2  4  2

Exécuter le même code sur un Mac donne

     a  b  c  d
a              
1 0  1  1  1  1
  1  1  1  1  1
  2  1  2  2  2
  3  1  2  2  2
2 4  1  1  3  1
  5  1  1  3  1
  6  1  2  4  2
  7  1  2  4  2

Le problème ici est que dans la colonne «a», les 4 dernières entrées sont 1 alors qu'elles devraient être 2 comme sur la machine Windows.

ÉDITER:

Version Pandas sur les deux: 0.24.2

Version Python sous Windows: 3.7.3

Version Python sur Mac: 3.7.4

kd88

[Mac, Python: 3.6.8]

Je pense que le comportement attendu des DataFrame.applys imbriqués va être un peu compliqué à déboguer. Ma recommandation est d'aller droit au but en émulant ce que vous voulez réaliser apply(c'est-à-dire cartographier puis réduire):

Carte: utilisez la mapméthode native de python , suivie de
Réduire: utilisez pandas.concatpour combiner les résultats

import numpy as np
import pandas as pd

def my_apply(df, f):
    return pd.concat(map(f, df))

def foo(x):
    group, grouped = x
    grouped['d'] = [1, 1, 2, 2]
    return grouped.groupby('d').apply(lambda x: x)

T = np.array([[1,1,1]]*2 + [[1,2,2]]*2 +
             [[2,1,3]]*2 + [[2,2,4]]*2)           
df = pd.DataFrame(T, columns= ['a','b','c' ])
df = my_apply(df.groupby('a'), foo)
print(df)

Résultat:

   a  b  c  d
0  1  1  1  1
1  1  1  1  1
2  1  2  2  2
3  1  2  2  2
4  2  1  3  1
5  2  1  3  1
6  2  2  4  2
7  2  2  4  2

Remarques:

Je n'ai pas essayé de traiter la différence d'implémentation / d'architecture conduisant à cette différence de performance entre Mac / Windows]
J'ai réduit votre exemple, remplacé foo2par un lambda, n'hésitez pas à revenir en arrière.
Le code ci-dessus lancera l'avertissement suivant A value is trying to be set on a copy of a slice from a DataFrame [...]. C'est parce que nous définissons délibérément la valeur d'une copie. C'est un comportement attendu, pas un bogue. pandasCette opération interprète malheureusement cette opération comme une erreur, car elle l'est probablement normalement.

Cet article est collecté sur Internet, veuillez indiquer la source lors de la réimpression.

En cas d'infraction, veuillez [email protected] Supprimer.

modifier le2021-01-19

laisse moi dire quelques mots

0commentaires

connexionAprès avoir participé à la revue

Article précédent:accéder au cluster Azure Kubernetes à l'aide d'un NodePort

TOP liste

article

Les pandas imbriqués groupby donnent des résultats inattendus

Les pandas imbriqués groupby donnent des résultats inattendus

Comment utiliser HttpClient avec TOUT cert ssl, quelle que soit la « mauvaise » est

Comment afficher du texte au milieu de div avec une couleur d'arrière-plan différente?

Résultat de l'échantillonneur JMeter : comprendre le temps de chargement, le temps de connexion et la latence

Modbus Python Schneider PM5300

Pourquoi Object.hashCode () ne suit pas la convention du code Java

Comment faire une recherche partielle et obtenir un score pertinent dans Elasticsearch

Existe-t-il un moyen de voir si mon bot est hors ligne ?

Comment choisir le nombre de fragments et de répliques Elasticsearch

optimiser les opérations du serveur avec elasticsearch: traitement des filigranes de disque bas

Comment changer la couleur de la police dans R?

Autocomplete avec java, Redis, Recherche élastique, Mongo

MasterService d'ElasticSearch prend trop de temps pour calculer l'état du cluster et lancer ProcessClusterEventTimeoutException

Comment vérifier si un utilisateur spécifique a un rôle? Discord js

Spring @RequestParam DateTime format comme ISO 8601 Date Heure facultative

Comment analyser un hachage Ruby plat en un hachage imbriqué?

Comment créer une nouvelle application dans Dropbox avec des autorisations complètes

Quelque chose dans le cluster Elasticsearch 7.4 devient de plus en plus lent avec les délais de lecture de temps en temps

Ajustement non linéaire avec R

php ajouter et fusionner des données de deux tables

Exporter la table de l'arborescence vers CSV avec mise en forme

帶有 Spring Boot 和 Azure AD 的 KeyCloak