Supprimer les lignes en double avec une certaine valeur dans une colonne spécifique

Vicky

J'ai un bloc de données et je veux supprimer les lignes qui sont dupliquées dans toutes les colonnes sauf une colonne et choisir de conserver celles qui ne sont pas certaines valeurs.

entrez la description de l'image ici

Dans l'exemple ci-dessus, la 3e ligne et la 4e ligne sont dupliquées pour toutes les colonnes à l'exception de col3, donc je veux garder une seule ligne. L'étape compliquée est que je veux garder la 4ème ligne au lieu de la 3ème car la 3ème ligne de col3 est "exclue". En général, je souhaite ne conserver que les lignes (qui ont été dupliquées) qui n'ont pas "exclu".

Ma trame de données réelle a beaucoup de lignes dupliquées et parmi ces 2 lignes qui sont dupliquées, l'une d'elles est "exclue" à coup sûr.

Ci-dessous est reproductible ex:

a <- c(1,2,3,3,7)
b <- c(4,5,6,6,8)
c <- c("red","green","excluded","orange","excluded")
d <- data.frame(a,b,c)

Merci beaucoup!

Mise à jour: ou, lors de la suppression des doublons, ne conserver que la deuxième observation (4e ligne).

SKyJim

dplyr avec une base R devrait fonctionner pour cela:

 library(dplyr) 
 a <- c(1,2,3,3,3,7)
 b <- c(4,5,6,6,6,8)
 c <- c("red","green","brown","excluded","orange","excluded")
 d <- data.frame(a,b,c)

 d <- filter(d, !duplicated(d[,1:2]) | c!="excluded")

Result: 
  a b        c
1 1 4      red
2 2 5    green
3 3 6    brown
4 3 6   orange
5 7 8 excluded

Le filtre éliminera tout ce qui devrait être exclu et non dupliqué. J'ai ajouté un exemple d'exclusion non unique à votre exemple («marron») à tester également.

Cet article est collecté sur Internet, veuillez indiquer la source lors de la réimpression.

En cas d'infraction, veuillez [email protected] Supprimer.

modifier le
0

laisse moi dire quelques mots

0commentaires
connexionAprès avoir participé à la revue

Articles connexes

Supprimer les lignes avec des valeurs en double dans une colonne spécifique d'un fichier CSV

Comment supprimer toutes les lignes en double d'une colonne en fonction du fait qu'un seul des doublons a une certaine valeur dans une autre colonne

Supprimer les lignes qui ont une valeur spécifique dans une colonne spécifique

Supprimer/supprimer les lignes en double dans XML mais donner la priorité à toutes les entrées avec une certaine valeur d'identification

Problèmes d'utilisation d'awk pour supprimer une ligne avec une valeur spécifique dans une certaine colonne

Requête SQL - supprimer les lignes avec une valeur de colonne en double

Supprimer les lignes qui ont une valeur spécifique dans n'importe quelle colonne

Supprimer toutes les lignes s'il y a au moins une valeur spécifique dans la colonne

Comment augmenter un nombre si toutes les lignes d'un ID spécifique ont une valeur dans une certaine colonne

Rechercher des lignes avec des valeurs en double dans deux colonnes où au moins une valeur dans une colonne est une valeur spécifique

Supprimer les lignes en double avec une valeur différente

Dupliquer des lignes avec une certaine valeur dans une colonne

Python: calculer les valeurs dans la colonne uniquement dans les lignes avec une valeur spécifique dans une autre colonne

Supprimer les lignes au début du groupe avec une valeur spécifique dans pandas groupby

REDSHIFT : attribuez une valeur dans la colonne à toutes les lignes en fonction d'une certaine valeur dans une autre colonne

Attribuer une valeur dans la colonne à toutes les lignes en fonction d'une certaine valeur dans une autre colonne

Supprimer les lignes Excel en fonction d'une valeur spécifique avec Powershell

supprimer toutes les lignes dans 2 colonnes si la valeur dans une colonne dépasse une certaine valeur

Pandas GroupBy et sélectionnez les lignes avec la valeur minimale dans une colonne spécifique

Fusionner les lignes avec la même valeur dans une colonne spécifique

Supprimer les lignes en double dans MySQL avec une condition

Lignes en double mais 1 colonne a une valeur différente. Conserver uniquement les lignes en double et ayant une valeur de colonne spécifique

Comment supprimer des lignes contenant toutes les valeurs NaN pour une valeur spécifique dans une autre colonne ?

Renvoie les lignes dans lesquelles une colonne spécifique a des valeurs en double

Comment supprimer une colonne nommée en double spécifique dans les colonnes d'un dataframe?

Masquer les lignes qui contiennent une valeur spécifique dans une colonne spécifique

Comment fusionner plusieurs lignes en une seule ligne en fonction d'une colonne avec une valeur spécifique dans Pandas

itérer sur une colonne spécifique jusqu'à une certaine valeur dans les pandas

Rechercher des enregistrements en double avec une valeur spécifique dans la colonne

TOP liste

  1. 1

    J'ai besoin de savoir si ces deux phrases sont les mêmes en programmation

  2. 2

    Javascript indiquant "impossible de définir la propriété 'innerHTML' sur null"

  3. 3

    Nextcloud avec Docker: impossible de créer ou d'écrire dans le répertoire de données

  4. 4

    La taille de la forme n'est pas égale à la taille de la cellule du tableau et ajuste le texte à l'intérieur de la forme

  5. 5

    Trouver l'intersection et l'union de deux rectangles

  6. 6

    Comment changer la couleur de la police dans R?

  7. 7

    Empêcher l'allocation de mémoire dans la génération de combinaison récursive

  8. 8

    Référencement des assemblys de structure .net 4.7 dans la solution .net core 2

  9. 9

    Compter combien de fois un nombre apparaît dans un tableau aléatoire

  10. 10

    Pourquoi utiliser Asyncio ne réduit pas le temps d'exécution global en Python et n'exécute pas les fonctions simultanément?

  11. 11

    Comment convertir une chaîne en tuple en utilisant `reads`?

  12. 12

    java.lang.ClassNotFoundException: oracle.jdbc.driver.OracleDriver

  13. 13

    comment afficher un bouton au-dessus d'un autre élément ?

  14. 14

    Création d'un nouvel objet d'une classe avec un nouveau nom en cliquant sur un bouton dans java swing

  15. 15

    comment supprimer "compte de connexion google" à des fins de développement - actions sur google

  16. 16

    Restauration de la sauvegarde de la base de données SQL Server sur la version inférieure

  17. 17

    Créer un graphique à barres avec une fréquence relative / à partir d'un objet de table dans R

  18. 18

    Création d'un rappel python pour une fonction C à partir d'une DLL avec un tampon char.

  19. 19

    java.lang.NoClassDefFoundError: org / springframework / data / repository / config / BootstrapMode

  20. 20

    comment le contrôle de tableau javascript devrait-il être

  21. 21

    impossible d'ouvrir un nouvel onglet dans react, ajoute localhost: 3000 sur le lien?

chaudétiquette

Archive