如何在忽略标点的情况下删除数据帧中的重复项?

网上聊天

我有以下数据框-

  print df

  Name | Role   |
  Mark | Admin  |
  Mark | Admin. |

  df = df.drop_duplicates()
  print df

  Name | Role  |
  Mark | Admin |
  Mark | Admin. |

我想忽略任何前导或前置标点符号(在这种情况下为句号)并删除重复项。

预期产量-

  df = df.drop_duplicates()
  print df

  Name | Role  |
  Mark | Admin |
耶斯列尔

使用Series.str.strip所有punctuations与空间与所有列DataFrame.apply,让所有重复DataFrame.duplicated的和筛选boolean indexing

import string
df = df[~df.apply(lambda x: x.str.strip(string.punctuation + ' ')).duplicated()]

print (df)
   Name    Role
0  Mark   Admin

另一个想法是处理已删除的数据punctuation

import string
df1 = df.apply(lambda x: x.str.strip(string.punctuation + ' ')).drop_duplicates()

print (df1)
   Name   Role
0  Mark  Admin

详情

#added list for see last space
print ([string.punctuation + ' '])
['!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ ']

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

在不更改元素顺序的情况下删除数组中的重复项

如何在不重复计算的情况下计算python中数据帧的所有唯一值?

如何使用Python删除数据框中的重复项

在PowerShell中,如何在不更改顺序的情况下从拆分路径中删除重复项?

如何在保留最新数据的情况下从Spark数据框中删除重复项?

优先删除数据帧中的部分重复项

如何在不删除数据的情况下撤消ALTER TABLE ... ADD PARTITION

如何在不更改特定列的情况下重新采样数据帧中的数据?

如何在不删除数据库目录的情况下将数据库拖放到配置单元中?

如何在不同情况下(VBA)在Excel中删除重复项?

Python:如何在不删除重复项的情况下将一个数据帧中的列值替换为另一个

如何在不删除数据和添加主键的情况下解决ORA-01758问题

在不使用任何数据结构的情况下从输入中删除重复项

如何删除数据库中的重复项

如何在不删除NaN值的情况下在熊猫中删除重复项

如何在不重复R中代码的情况下将数据放入数据帧?

在条件基于另一列的情况下从熊猫数据框中删除重复项

滚动时如何在不删除数组中先前数据的情况下添加更多数据?

如何查找和删除数据框中的重复项?

如何在不使用`uniq`的情况下删除数组中的重复项?

在某些字段具有优先权的情况下,如何从文件中删除重复项?

如何在不使用 Java 索引的情况下从 Arraylist 中删除数组元素

如何在不删除条目行的情况下从单个 Power Query 列中删除重复项?

如何在不使用另一个数组的情况下从数组中删除重复项?

删除数据帧 PANDAS 中的重复项

如何在不使用字典或集合的情况下删除列表中的重复项?

如何在不使用内置函数的情况下对字符串数组中的重复项进行排序和删除?

在不删除的情况下查找列中的重复项

仅在 5 天内发生的情况下如何从数据框中删除重复项