打印更改一个值的重复项

阿尔金

我正在开发一个有关数据分析的学生项目，我想在数据框中找到所有重复项，但是更改了一个特定的单元格，例如

ID	名称	姓	工作	工资
1个	约翰	黑色	艺术家	1200
2	亚当	史密斯	艺术家	1400
3	约翰	黑色	艺术家	1900年
4	约翰	黑色	司机	1200
5	亚当	史密斯	艺术家	1400
6	亚当	黑色	司机	1200

现在我想接收具有相同姓名，姓氏和工作但薪水不同或相同的人。它看起来应该像这样：

ID	名称	姓	工作	工资
1个	约翰	黑色	艺术家	1200
3	约翰	黑色	艺术家	1900年
2	亚当	史密斯	艺术家	1400
5	亚当	史密斯	艺术家	1400

（这只是简单的数据，我有很多很多的行和列）。我怎么能得到这个？我试过这样的代码：

names=df['Name'].value_counts()
surnames=df['Surname'].value_counts()
jobs=df['Job'].value_counts()
wages=df['Wage'].value_counts()
for i in names:
    for j in surnames:
       for k in jobs:
            if (df['Name'] == i and df['Surname'] == j and df['Job'] == k):
                  print ("something")

但我仍然有一个错误：

f"The truth value of a {type(self).__name__} is ambiguous. "
ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

我也尝试过使用lambda表达式：

for i in names:
    for j in surnames:
       for k in jobs:
           persons= df.apply(lambda x: print (x) if x['Name'] == i and x['Surname'] == j and x['Job'] == l else False, axis=1)

print(persons)

但是我得到了一对ID和值true或false。我该如何修理？或者我该怎么办？谢谢你的建议

乔·费尔兹（Joe Ferndz）

要获取所有重复记录和非重复记录，可以Series.duplicated与parameter一起使用keep=False。这将导致boolean index。然后，您可以使用结果选择所需的行。

您的问题的单行答案是：

df[(df[['Name','Surname','Job']].duplicated(keep=False))]

输出为：

   Id  Name Surname     Job  Wage
0   1  John   Black  Artist  1200
1   2  Adam   Smith  Artist  1400
2   3  John   Black  Artist  1900
4   5  Adam   Smith  Artist  1400

运作方式如下：

对于如下所示的数据框：

>>> df
   Id  Name Surname     Job  Wage
0   1  John   Black  Artist  1200
1   2  Adam   Smith  Artist  1400
2   3  John   Black  Artist  1900
3   4  John   Black  Driver  1200
4   5  Adam   Smith  Artist  1400
5   6  Adam   Black  Driver  1200

搜索姓名，姓氏和工作的重复项将导致：

>>> df[['Name','Surname','Job']].duplicated(keep=False)
0     True
1     True
2     True
3    False
4     True
5    False
dtype: bool

使用此布尔索引，您可以获取所有为True和False的记录。

要获取所有重复项，可以使用以下命令：

>>> df[(df[['Name','Surname','Job']].duplicated(keep=False))]
   Id  Name Surname     Job  Wage
0   1  John   Black  Artist  1200
1   2  Adam   Smith  Artist  1400
2   3  John   Black  Artist  1900
4   5  Adam   Smith  Artist  1400

要获取所有非重复项，可以提供此命令。该~会否定，给你不符合此条件的所有值。

>>> df[~(df[['Name','Surname','Job']].duplicated(keep=False))]
   Id  Name Surname     Job  Wage
3   4  John   Black  Driver  1200
5   6  Adam   Black  Driver  1200

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-27

我来说两句

0 条评论

登录后参与评论

上一篇：如何构造请求异常处理并检查200个响应？

打印更改一个值的重复项

打印更改一个值的重复项

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

Swift 2.1-对单个单元格使用UITableView

SQL Server中的非确定性数据类型

如何避免每次重新编译所有文件？

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

HttpClient中的角度变化检测

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

在Wagtail管理员中，如何禁用图像和文档的摘要项？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

构建类似于Jarvis的本地语言应用程序

Camunda-根据分配的组过滤任务列表

如何了解DFT结果

Embers js中的更改侦听器上的组合框

ggplot：对齐多个分面图-所有大小不同的分面

使用分隔符将成对相邻的数组元素相互连接

PHP Curl PUT 在 curl_exec 处停止

您如何通过 Nativescript 中的 Fetch 发出发布请求？

错误：找不到存根。请确保已调用spring-cloud-contract：convert

应用发明者仅从列表中选择一个随机项一次