查找熊猫数据框中两个相关列之间的不匹配

哈拉齐

我有一个大熊猫数据框，它有两列。一列是项目的唯一代码，第二列包含该项目的名称。

例如，假设“ID”具有动物的唯一代码，“名称”具有该动物的名称。

df = pd.DataFrame({'ID': ['AA','BB', 'CC', 'DD', 'EE'], 
                   'Name': ['Ape', 'Bull', 'Chimp', 'Dog', 'Dog']})


    ID      Name
0   AA      Ape
1   BB      Bull
2   CC      Chimp
3   DD      Dog
4   EE      Dog

当我运行下面的代码时，我会得到错误，因为 ID 列中的唯一项比名称列中的多一个

len(df['Code'].unique()) == len(df['Name'].unique())

我的问题是如何找出两个代码代表哪种动物。理想情况下，我希望最终得到一个具有以下内容的数据框：

    ID  Name
3   DD  Dog
4   EE  Dog

但只要我能识别出不止一个 ID 所代表的动物，我就会对获得所需结果的任何解决方案感到满意。

谢谢

编辑：

数据框包含重复的行，因此类似于实际问题的更现实的示例是如下所示的数据框：

    ID      Name
0   AA      Ape
1   BB      Bull
2   CC      Chimp
3   DD      Dog
4   EE      Dog
5   CC      Chimp
6   AA      Ape
7   DD      Dog
8   FF      Frog

df = pd.DataFrame({'ID': ['AA','BB', 'CC', 'DD', 'EE', 'CC', 'AA', 'DD', 'FF'], 
                   'Name': ['Ape', 'Bull', 'Chimp', 'Dog', 'Dog', 'Chimp', 'Ape', 'Dog', 'Frog']})

期望的输出仍然是查找哪个ID已与两个不同的动物名称匹配

    ID  Name
3   DD  Dog
4   EE  Dog

迈克尔·什琴斯尼

对于像第二个示例（包含重复行）这样的数据框，带有一个稍微增强的示例

import pandas as pd

df = pd.DataFrame({'ID': ['AA','BB', 'CC', 'DD', 'EE', 'CC', 'AA', 'DD', 'FF', 'AA'], 
                   'Name': ['Ape', 'Bull', 'Chimp', 'Dog', 'Dog', 'Chimp', 'Ape', 'Dog', 'Frog','Bull']})
#    ID   Name
# 0  AA    Ape
# 1  BB   Bull
# 2  CC  Chimp
# 3  DD    Dog
# 4  EE    Dog
# 5  CC  Chimp
# 6  AA    Ape
# 7  DD    Dog
# 8  FF   Frog
# 9  AA   Bull

我们可以使用以下内容。对结果进行排序，以便更容易按Name识别ID。

df.groupby('Name').filter(lambda x: x['ID'].nunique() > 1).drop_duplicates(subset=['ID','Name']).sort_values('Name')

输出

   ID  Name
1  BB  Bull
9  AA  Bull
3  DD   Dog
4  EE   Dog

对于具有唯一行的数据框@ShubhamSharma 的答案要快得多。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2022-08-12

我来说两句

0 条评论

登录后参与评论

上一篇：如何计算字符串编写较少代码中的大写和小写字母？

查找熊猫数据框中两个相关列之间的不匹配

查找熊猫数据框中两个相关列之间的不匹配

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

Swift 2.1-对单个单元格使用UITableView

SQL Server中的非确定性数据类型

如何避免每次重新编译所有文件？

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

HttpClient中的角度变化检测

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

在Wagtail管理员中，如何禁用图像和文档的摘要项？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

构建类似于Jarvis的本地语言应用程序

Camunda-根据分配的组过滤任务列表

如何了解DFT结果

Embers js中的更改侦听器上的组合框

ggplot：对齐多个分面图-所有大小不同的分面

使用分隔符将成对相邻的数组元素相互连接

PHP Curl PUT 在 curl_exec 处停止

您如何通过 Nativescript 中的 Fetch 发出发布请求？

错误：找不到存根。请确保已调用spring-cloud-contract：convert

应用发明者仅从列表中选择一个随机项一次