Los pandas cambian los valores en la columna en función de los valores en otra columna

emilaz:

Tengo un marco de datos en el que una columna representa algunos datos, la otra columna representa índices en los que quiero eliminar de mis datos. Entonces a partir de esto:

import pandas as pd
import numpy as np

df = pd.DataFrame({'data':[np.arange(1,5),np.arange(3)],'to_delete': [np.array([2]),np.array([0,2])]})
df
>>>> data       to_delete
     [1,2,3,4]    [2]
     [0,1,2]     [0,2]

Esto es con lo que quiero terminar:

new_df
>>>>   data     to_delete
     [1,2,4]       [2]
       [1]        [0,2]

Podría iterar sobre las filas a mano y calcular los nuevos datos para cada uno de esta manera:

new_data = []
for _,v in df.iterrows():
    foo = np.delete(v['data'],v['to_delete'])
    new_data.append(foo)
df.assign(data=new_data)

pero estoy buscando una mejor manera de hacer esto.

yatu:

La sobrecarga de llamar a una función numpy para cada fila realmente empeorará el rendimiento aquí. Te sugiero que vayas con listas en su lugar:

df['data'] = [[j for ix, j in enumerate(i[0]) if ix not in i[1]] 
              for i in df.values]

print(df)

       data to_delete
0  [1, 2, 4]       [2]
1        [1]    [0, 2]

Tiempos en un 20Kmarco de datos de fila:

df_large = pd.concat([df]*10000, axis=0)

%timeit [[j for ix, j in enumerate(i[0]) if ix not in i[1]] 
         for i in df_large.values]
# 184 ms ± 12.4 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

%%timeit 
new_data = []
for _,v in df_large.iterrows():
    foo = np.delete(v['data'],v['to_delete'])
    new_data.append(foo)

# 5.44 s ± 233 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit df_large.apply(lambda row: np.delete(row["data"], 
                       row["to_delete"]), axis=1)
# 5.29 s ± 340 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

Este artículo se recopila de Internet, indique la fuente cuando se vuelva a imprimir.

En caso de infracción, por favor [email protected] Eliminar

Editado en2020-04-11

Déjame decir algunas palabras

0Comentarios

Iniciar sesiónRevisión de participación posterior

TOP Lista

Artículos

Los pandas cambian los valores en la columna en función de los valores en otra columna

Los pandas cambian los valores en la columna en función de los valores en otra columna

¿Cómo ocultar la aplicación web de los robots de búsqueda? (ASP.NET)

¿Precedencia de operadores?

Importar archivo js con TypeScript 2.0

Cómo conectar Flutter con MongoDB

List <string> devuelve como System.Collections.Generic.List en HttpPost con MVC

Ver todos los comentarios en un video de YouTube

Extraction du nœud enfant de la réponse JSON à l'aide du script SoapUI-Groovy

Comparer des images dans Pygame (pas pixel par pixel)

Error de menú desplegable en Bootstrap 4

Eliminar la barra de menú de la aplicación Electron

Abreviar el vector de nombres en R, usando la biblioteca stringr

Cerrar el menú de material angular desde el controlador

Limitar las entradas de One2many Lines en odoo

Google 스프레드 시트 : QUERY를 사용하여 그룹 내 상위 N 개 케이스 선택

Leer Azure Key Vault Secret de la aplicación Function

Declaración if simple en intérprete de python

actualizar el contenido de la vista de reciclaje falla en la hoja inferior

marco de datos de Python: eliminar filas con claves externas faltantes

¿Cómo instalar el paquete xgboost en python (plataforma Windows)?

cómo colocar la ventana de información para la etiqueta en el mapa de Google

Validación de formulario Angular 4