如何在忽略标点的情况下删除数据帧中的重复项？

iCHAIT 发表于 Dev

网上聊天

我有以下数据框-

  print df

  Name | Role   |
  Mark | Admin  |
  Mark | Admin. |

  df = df.drop_duplicates()
  print df

  Name | Role  |
  Mark | Admin |
  Mark | Admin. |

我想忽略任何前导或前置标点符号（在这种情况下为句号）并删除重复项。

预期产量-

  df = df.drop_duplicates()
  print df

  Name | Role  |
  Mark | Admin |

耶斯列尔

使用Series.str.strip所有punctuations与空间与所有列DataFrame.apply，让所有重复DataFrame.duplicated的和筛选boolean indexing：

import string
df = df[~df.apply(lambda x: x.str.strip(string.punctuation + ' ')).duplicated()]

print (df)
   Name    Role
0  Mark   Admin

另一个想法是处理已删除的数据punctuation：

import string
df1 = df.apply(lambda x: x.str.strip(string.punctuation + ' ')).drop_duplicates()

print (df1)
   Name   Role
0  Mark  Admin

详情

#added list for see last space
print ([string.punctuation + ' '])
['!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ ']

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-22

我来说两句

0 条评论

登录后参与评论

上一篇：Neo4j在使用apoc.merge.relationship（）时向关系添加属性

在不更改元素顺序的情况下删除数组中的重复项

如何在不重复计算的情况下计算python中数据帧的所有唯一值？

如何使用Python删除数据框中的重复项

在PowerShell中，如何在不更改顺序的情况下从拆分路径中删除重复项？

如何在保留最新数据的情况下从Spark数据框中删除重复项？

优先删除数据帧中的部分重复项

如何在不删除数据的情况下撤消ALTER TABLE ... ADD PARTITION

如何在不更改特定列的情况下重新采样数据帧中的数据？

如何在不删除数据库目录的情况下将数据库拖放到配置单元中？

如何在不同情况下（VBA）在Excel中删除重复项？

Python：如何在不删除重复项的情况下将一个数据帧中的列值替换为另一个

如何在不删除数据和添加主键的情况下解决ORA-01758问题

在不使用任何数据结构的情况下从输入中删除重复项

如何删除数据库中的重复项

如何在不删除NaN值的情况下在熊猫中删除重复项

如何在不重复R中代码的情况下将数据放入数据帧？

在条件基于另一列的情况下从熊猫数据框中删除重复项

滚动时如何在不删除数组中先前数据的情况下添加更多数据？

如何查找和删除数据框中的重复项？

如何在不使用`uniq`的情况下删除数组中的重复项？

在某些字段具有优先权的情况下，如何从文件中删除重复项？

如何在不使用 Java 索引的情况下从 Arraylist 中删除数组元素

如何在不删除条目行的情况下从单个 Power Query 列中删除重复项？

如何在不使用另一个数组的情况下从数组中删除重复项？

删除数据帧 PANDAS 中的重复项

如何在不使用字典或集合的情况下删除列表中的重复项？

如何在不使用内置函数的情况下对字符串数组中的重复项进行排序和删除？

在不删除的情况下查找列中的重复项

仅在 5 天内发生的情况下如何从数据框中删除重复项

TOP 榜单

文章

如何在忽略标点的情况下删除数据帧中的重复项？

如何在忽略标点的情况下删除数据帧中的重复项？

计算数据帧R中的字符串频率

Android Studio Kotlin：提取为常量

Excel 2016图表将增长与4个参数进行比较

获取并汇总所有关联的数据

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

将加号/减号添加到jQuery菜单

算术中的c ++常量类型转换

TYPO3：将 Formhandler 添加到新闻扩展

TreeMap中的自定义排序

如何开始为Ubuntu开发

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

无法使用 envoy 访问 .ssh/config

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

遍历元素数组以每X秒在浏览器上显示

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

尝试在Dell XPS13 9360上安装Windows 7时出错

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称