如何找到列之间的差异，但仅适用于熊猫中的下一个非零值？

内森·巴拉（Nathan Ballou）

我有一个包含几百万行的DataFrame，每一行都与以下内容类似：

2017-06-13         NaT         NaT         NaT         NaT         NaT         NaT  2017-10-28
2017-10-02         NaT         NaT         NaT         NaT         NaT         NaT  2017-10-28
2017-10-30  2017-10-31         NaT  2017-10-31  2017-11-01  2017-11-02  2017-11-03  2017-11-03
2017-10-30  2017-10-30         NaT  2017-10-30         NaT  2017-10-30  2017-11-01  2017-11-01
2017-10-02         NaT         NaT         NaT         NaT         NaT         NaT  2017-10-28

每列都是流程中的一步，我试图找到一步一步的时间。NaT值表示已跳过该步骤，因此我想在计算中跳过该步骤并计算下一个步骤（非NaT）的时间。

在此示例中，对于第一行和第二行，我正在寻找最后一列与第一列之间的差异。对于第三行，我正在寻找第一和第二列，第四和第二列，第五和第四列等之间的差异。预期的输出类似于以下内容（如果使用天数）：

NaT   0     0     0     0     0     0   137
NaT   0     0     0     0     0     0   111
NaT   1     0     0     1     1     1     0
NaT   0     0     0     0     0     2     0
NaT   0     0     0     0     0     0    26

我敢肯定有一种方法可以使用for循环和if语句并减去日期，但是我希望使用一种更加矢量化的方法，因为DataFrame相当大。

JarroVGIT

好吧，我可以自由地创建一个可行的示例。请不要共享您的数据图片，因为期望重新创建MRE（最小可复制示例），这有助于更快地回答您的问题。

import numpy as np
import pandas as pd
from datetime import date, datetime

dic = {
    "col1": [datetime(2020, 1, 1), datetime(2020,2,1), datetime(2020,3,1), datetime(2020,4,1)],
    "col2": [datetime(2020, 1, 4), np.nan, datetime(2020,3,5), datetime(2020,4,2)],
    "col3": [np.nan, np.nan, np.nan, datetime(2020,4,4)],
    "col4": [datetime(2020, 1, 6), datetime(2020,2,10), datetime(2020,3,6), datetime(2020,4,5)],
}

df.ffill(axis=1, inplace=True)
df = df - df.shift(axis=1)
df

结果是：

    col1    col2    col3    col4
0   NaT 3 days  0 days  2 days
1   NaT 0 days  0 days  9 days
2   NaT 4 days  0 days  1 days
3   NaT 1 days  2 days  1 days

说明：ffill(axis=1)确保使用NaN（或NaT）的每一行都填充有先前的有效值。然后，我们从原始数据中减去移位后的数据框，以计算之间的天数。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-02-11

我来说两句

0 条评论

登录后参与评论

熊猫：用第一列中的下一个非零值替换第一行中的所有0？

如何在熊猫数据框中找到值的下一个位置和它们之间的值计数？

如何找到列之间的差异，但仅适用于熊猫中的下一个非零值？

如何找到列之间的差异，但仅适用于熊猫中的下一个非零值？

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID