在另一个时间戳之前计算时间戳数量的更快方法

苏梅特·马吉亚（Sumeet Makhija）

我有两个数据框“火车”和“日志”。“日志”具有日期时间列“ time1”，而火车具有日期时间列“ time2”。对于“火车”中的每一行，我想找出“时间1”在“时间2”之前的“时间1”计数。

我已经尝试了dataframe的apply方法。

def log_count(row):
    return sum((log['user_id'] == row['user_id']) & (log['time1'] < row['time2']))
train.apply(log_count, axis = 1)

这种方法花费了很长时间。

算了吧

由于您要对每个（配对）user_id组执行一次此操作，因此可以执行以下操作：

在和中创建一个名为is_logwhich的列：1log0train
```
log['is_log'] = 1
train['is_log'] = 0
```
该is_log列将用于跟踪行是否来自log或train。

连接log和数据train框：

combined = pd.concat(
    [log.rename(columns=dict(time1="time")), train.rename(columns=dict(time2="time"))],
    axis=0,
    ignore_index=True,
    sort=False,
)

排序combined的数据帧user_id，并time：

combined = combined.sort_values(by=["user_id", "time"])

所以现在combined看起来像这样：

         time  user_id  is_log
6  2000-01-17        0       0
0  2000-03-13        0       1
1  2000-06-08        0       1
7  2000-06-25        0       0
4  2000-07-09        0       1
8  2000-07-18        0       0
10 2000-03-13        1       0
5  2000-04-16        1       0
3  2000-08-04        1       1
9  2000-08-17        1       0
2  2000-10-20        1       1

现在，您要查找的计数可以表示为该is_log列的累积总和，分组方式为user_id：
```
combined["count"] = combined.groupby("user_id")["is_log"].cumsum()
train = combined.loc[combined["is_log"] == 0]
```
这是主要思想：计算列中的1s数量is_log等于计算inlog中每次出现之前的次数train。

例如，

import numpy as np
import pandas as pd

np.random.seed(2019)


def random_dates(N):
    return np.datetime64("2000-01-01") + np.random.randint(
        365, size=N
    ) * np.timedelta64(1, "D")


N = 5
log = pd.DataFrame({"time1": random_dates(N), "user_id": np.random.randint(2, size=N)})
train = pd.DataFrame(
    {
        "time2": np.r_[random_dates(N), log.loc[0, "time1"]],
        "user_id": np.random.randint(2, size=N + 1),
    }
)

log["is_log"] = 1
train["is_log"] = 0
combined = pd.concat(
    [log.rename(columns=dict(time1="time")), train.rename(columns=dict(time2="time"))],
    axis=0,
    ignore_index=True,
    sort=False,
)
combined = combined.sort_values(by=["user_id", "time"])
combined["count"] = combined.groupby("user_id")["is_log"].cumsum()
train = combined.loc[combined["is_log"] == 0]

print(log)
#        time1  user_id  is_log
# 0 2000-03-13        0       1
# 1 2000-06-08        0       1
# 2 2000-10-20        1       1
# 3 2000-08-04        1       1
# 4 2000-07-09        0       1

print(train)

产量

         time  user_id  is_log  count
6  2000-01-17        0       0      0
7  2000-06-25        0       0      2
8  2000-07-18        0       0      3
10 2000-03-13        1       0      0
5  2000-04-16        1       0      0
9  2000-08-17        1       0      1

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-20

我来说两句

0 条评论

登录后参与评论

上一篇：如何在Laravel的控制器中获取选定的无线电输入阵列

在另一个时间戳之前计算时间戳数量的更快方法

在另一个时间戳之前计算时间戳数量的更快方法

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何正确比较 scala.xml 节点？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

在令牌内联程序集错误之前预期为 ')'

数据表中有多个子行，asp.net核心中来自sql server的数据

VBA 自动化错误：-2147221080 (800401a8)

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何在JavaScript中获取数组的第n个元素？

检查嵌套列表中的长度是否相同

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

ES5的代理替代

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

如何监视应用程序而不是单个进程的CPU使用率？

如何检查字符串输入的格式

解决类Koin的实例时出错

如何自动选择正确的键盘布局？-仅具有一个键盘布局