Estou tentando remover as linhas que têm apenas dígitos ou apenas caracteres. Por exemplo, abaixo está o exemplo de coluna de dataframe do pandas:
col1:
business
served business
02446681
C96305407PLA
P0116711
Em meus resultados, eu precisaria dos valores abaixo porque a primeira e a segunda linhas contêm apenas caracteres e a terceira linha contém apenas dígitos.
col1:
C96305407PLA
P0116711
Qualquer sugestão seria apreciada !!
pandas.Series.str.contains
com regexRegex mais simples, mas permitiria uma linha com '123 456'
porque '3 '
e ' 4'
satisfazem o padrão.
df[df.col1.str.contains('\d\D|\D\d')]
col1
3 C96305407PLA
4 P0116711
Isso soluciona a deficiência da regex acima, forçando explicitamente o padrão a corresponder apenas se um dígito / alfa ou alfa / dígito for encontrado.
df[df.col1.str.contains('(?i)\d[a-z]|[a-z]\d')]
col1
3 C96305407PLA
4 P0116711
Este artigo é coletado da Internet.
Se houver alguma infração, entre em [email protected] Delete.
deixe-me dizer algumas palavras