在数据框中查找“缺失”值的最佳方法是什么?

克里斯塔达673

假设有一个数据框:

import pandas as pd
df = pd.DataFrame([1,2,3,4,5, 7,8, 10])

我想在其中找到“缺失”数字(6和9)。我要做的代码是:

li = []
low = int(min(df.values))
high = int(max(df.values))

for i in range(low, high+1):
    if i not in df.values:
        li.append(i)

print(li)
>>> [6, 9]

但是,如果数据帧很大,则for循环可能会花费一些时间。以我为例,如果数据帧的长度约为30万行,则需要162秒。

有没有更有效的方法(矢量化)?

andrew_reece

只需列出整个范围(假设您的界限以表示df),然后使用isin()来找出差异即可。

m = 10
full = pd.Series(np.arange(1, m+1))

full[~full.isin(df[0])].values
# array([6, 9])

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

在数据框和按不同列分组中计算不同值的最佳方法是什么?

在数组中查找最后一个非空值的最佳方法是什么

在数组中查找元素的最佳方法是什么?

在此数据框中填充缺失值的最有效方法是什么?

在数组中存储大量数据的最佳方法是什么?

在数据框中替换列值的正确方法是什么?

将值从数据框中的其他列追加到列的最佳方法是什么

在pyspark中为数据框显示不同值的最佳方法是什么?

基于原始列的dtype是对象,在数据框中创建多个虚拟变量的最佳方法是什么?

在数据框中查找连续值

在数组中查找数字的最佳实践是什么?

查找存储在数组列表中的对象的平均值的最佳方法是什么?

在数组中查找事件 x 和事件 y 的最佳方法是什么?

从数据框中获取特定列中具有最小值的行的最佳方法是什么?

在数据库中组织每日用户数据的最佳方法是什么?

正确的方法从另一个数据框中查找缺失值

基于另一列中相应行的条件值填充数据框的列的最佳方法是什么?

使用行值进行评估并将结果作为新列插入到 Pandas 数据框中的最佳方法是什么?

在数据库表中存储宾果卡号码的最佳方法是什么

在数据库中的表之间维护共享字段的最佳方法是什么?

在数据库中存储形状的最佳方法是什么

在数据框中添加缺失的索引

在数据框中添加缺失的日子

在python或spark中获取大数据的缺失值的最快方法是什么?

从修改值的旧列在数据框中创建新列的最简单逻辑是什么?

在OpenGL ES纹理中查找最小值/最大值的最佳方法是什么

汇总Pandas数据框中所有值的最佳方法是什么?

在数组中查找多个值的最佳方法

在数组中查找最大值索引的最快方法是什么?