Comment supprimer toutes les lignes en double d'une colonne en fonction du fait qu'un seul des doublons a une certaine valeur dans une autre colonne

jdd117 Publié le Dev

19

jdd117

J'ai un bloc de données dans R où une colonne est un facteur numérique pour le numéro d'identification avec plusieurs rencontres du même identifiant, et une colonne est l'âge et la dernière colonne est le statut qui se compose de 10 niveaux. J'essaie de supprimer toutes les lignes d'ID en double si un seul des ID en double a une certaine valeur à tout moment dans la colonne d'état.

Voici mon code, j'essaie de supprimer tous les identifiants en double si l'un d'entre eux a le niveau d'état répertorié

D1 = DD %>%
    group by(ID, status)%>%
    filter(!duplicated(ID) & if(any(status = c('11','13','14','19','20'))))
    example data actual data is has over 100000 rows

Voici un exemple de jeu de données. Le seul doublon qui ne doit pas être supprimé est ID-987 Id.data<-data.frame( ID = c(564,758,987,1568,4987,413578,987.65647,4895,564,135,1568), gender= c("male ","femelle","femelle","mâle","mâle","femelle","femelle","mâle", "femelle","mâle","mâle","mâle"), status = c (11,8,6,13,14,8,12,8,10,19,16,10), chaînesAsFactors = FALSE )

akrun

D'après la description, peut-être que cela fonctionne

library(dplyr) 
DD %>%
     group_by(ID) %>%
     filter(!(n() > 1 & any(status %in% c('11', '13', '14', '19', '20')))) %>%
     ungroup

-sortir

# A tibble: 4 x 2
#     ID status
#  <int> <chr> 
#1     3 9     
#2     4 6     
#3     4 5     
#4     5 20

Les données

DD <- structure(list(ID = c(1L, 1L, 1L, 2L, 2L, 3L, 4L, 4L, 5L), status = c("9", 
"11", "10", "13", "10", "9", "6", "5", "20")), class = "data.frame",
row.names = c(NA, 
-9L))

Cet article est collecté sur Internet, veuillez indiquer la source lors de la réimpression.

En cas d'infraction, veuillez [email protected] Supprimer.

modifier le2021-08-22

laisse moi dire quelques mots

0commentaires

connexionAprès avoir participé à la revue

Article précédent:Docker dans l'image docker d'ubuntu 18.04 ne s'exécute pas

Articles connexes

REDSHIFT : attribuez une valeur dans la colonne à toutes les lignes en fonction d'une certaine valeur dans une autre colonne

Attribuer une valeur dans la colonne à toutes les lignes en fonction d'une certaine valeur dans une autre colonne

Supprimer les doublons, en priorisant les lignes à supprimer en fonction d'une autre colonne, dans R

Comment rechercher et supprimer les doublons dans une colonne en fonction des valeurs d'une autre colonne ?

Comment soustraire des lignes dans un df en fonction d'une valeur dans une autre colonne

Comment supprimer les valeurs en double d'un seul élément de colonne en fonction d'une autre colonne

Supprimer les doublons d'un jeu de données en fonction d'une valeur dans une autre colonne

Bash: trouver des doublons dans une colonne, supprimer des lignes en fonction de la comparaison d'une autre colonne

Comment puis-je supprimer des lignes en double consécutives dans une colonne en fonction de la condition/du regroupement d'une autre colonne ?

Supprimer les doublons dans Excel en fonction d'une autre valeur de colonne

Supprimer les doublons dans une colonne en fonction d'une autre colonne

supprimer les lignes qui ont des doublons en fonction d'une colonne en fonction du nombre de NA dans une colonne différente

Supprimer les lignes en double dans une colonne en fonction d'une autre colonne et conserver les autres colonnes intactes

Supprimer les lignes en double avec une certaine valeur dans une colonne spécifique

Comment supprimer des lignes en double en fonction d'une autre condition de colonne?

Comment supprimer des lignes en fonction d'une valeur de colonne où la valeur de colonne d'une ligne est un sous-ensemble d'une autre?

Comment prendre un scalaire d'une certaine valeur dans une autre colonne en fonction de la valeur d'une certaine colonne dans un Dataframe ?

Comment trouver les valeurs en double dans une ligne, puis trouver la plus grande valeur dans une autre colonne en fonction des doublons?

diviser les mots d'une ligne en plusieurs lignes en fonction d'une certaine valeur d'une autre colonne Python

Comment regrouper des lignes avec une valeur en double dans 1 colonne et une valeur différente dans une autre colonne sans supprimer/supprimer d'autres lignes en double ?

Modifier une colonne dans les n premières lignes en fonction d'une autre valeur de colonne dans un DataFrame

Supprimer les doublons dans une colonne en fonction d'une autre colonne où il y a une hiérarchie

Itérer à travers les lignes dans un dataframe et changer la valeur d'une colonne en fonction d'une autre colonne

Comment définir une valeur dans une autre colonne de Google Sheets en fonction d'une certaine valeur de colonne dans les mêmes feuilles

Comment supprimer les lignes de doublons en fonction d'une colonne « clé » ?

Comment sélectionner toutes les instances d'un ID à partir d'une table de référence en fonction du fait qu'elle contient au moins une instance d'un autre ID d'une colonne différente ?

Comment sélectionner toutes les instances d'un ID à partir d'une table de référence en fonction du fait qu'elle contient au moins une instance d'un autre ID d'une colonne différente ?

Supprimer les lignes dans la première colonne Df, en fonction d'une autre colonne Df

Trier les lignes d'un dataframe (colonne avec doublons) en fonction d'une colonne d'un autre dataframe en Python

TOP liste

article

chaudétiquette

Archive