Python Pandas Dataframe GroupBy基于条件的大小

clg4 发表于 Dev

clg4

我有一个数据框“ df”，看起来像这样：

id  date1   date2
1   11/1/2016   11/1/2016
1   11/1/2016   11/2/2016
1   11/1/2016   11/1/2016
1   11/1/2016   11/2/2016
1   11/2/2016   11/2/2016
2   11/1/2016   11/1/2016
2   11/1/2016   11/2/2016
2   11/1/2016   11/1/2016
2   11/2/2016   11/2/2016
2   11/2/2016   11/2/2016

我想做的是对ID进行分组，然后获取每个ID的大小，其中date1 = date2。结果应如下所示：

id  samedate    count
1   11/1/2016    2 
1   11/2/2016    1 
2   11/1/2016    2 
2   11/2/2016    2

我已经试过了：

gb=df.groupby(id').apply(lambda x: x[x.date1== x.date2]['date1'].size())

并得到这个错误：

TypeError: 'int' object is not callable

您当然可以标记date1和date2相等的每个实例，然后在每个samedate之前为每个id计数这些标记，但是我必须相信对此有一个groupby选项。

耶斯列尔

您可以boolean indexing先使用，然后再聚合size：

df.date1 = pd.to_datetime(df.date1)
df.date2 = pd.to_datetime(df.date2)

df = df[df.date1 == df.date2]
gb=df.groupby(['id', 'date1']).size().reset_index(name='count')
print (gb)
   id      date1  count
0   1 2016-11-01      2
1   1 2016-11-02      1
2   2 2016-11-01      2
3   2 2016-11-02      2

时间：

In [79]: %timeit (df[df.date1 == df.date2].groupby(['id', 'date1']).size().reset_index(name='count'))
100 loops, best of 3: 3.84 ms per loop

In [80]: %timeit (df.groupby(['id', 'date1']).apply(lambda x: (x['date1'] == x['date2']).sum()).reset_index())
100 loops, best of 3: 7.57 ms per loop

计时代码：

#len df = 10k
df = pd.concat([df]*1000).reset_index(drop=True)
#print (df)

df.date1 = pd.to_datetime(df.date1)
df.date2 = pd.to_datetime(df.date2)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-4

我来说两句

0 条评论

登录后参与评论

上一篇：诊断2013与MySQL的连接断开

Python Pandas DataFrame 基于条件的新列

python-pandas groupby 到平面 DataFrame

python pandas dataframe groupby或pivot_table

Python pandas - DataFrame groupby and re-construct

Python Pandas Dataframe Groupby Sum 问题

Python Pandas DataFrame根据条件分组

Python：Pandas DataFrame复杂更新条件

在python pandas dataframe groupby上应用两个过滤条件

基于条件的Pandas DataFrame重复值

Python Pandas DataFrame索引

Python Pandas Dataframe融化

填充DataFrame Pandas Python

Python Pandas DataFrame拆分

基于标签/列值的python pandas dataframe转换

Python Pandas基于需要过滤DataFrame的函数创建列

Python：pandas DataFrame基于其他列的新列

在Python Pandas中基于DataFrame中的日期进行值计算？

基于Python Pandas中DataFrame中的值的总和？

python pandas dataframe groupby值并绘制多个图形

Python：Pandas Dataframe，groupby 但保留其他缺失值

单个DataFrame列python / pandas中的groupby逗号分隔值

在 GroupBy 之后，Python Pandas DataFrame 难以展平

Python：pandas groupby 到基于索引的字典

Python：使用条件索引逐列附加 Pandas DataFrame

Python pandas.DataFrame：根据条件使整行为NaN

python pandas dataframe按日期条件切片

Pandas DataFrame 条件分组

跨行的 Pandas DataFrame 条件

TOP 榜单

文章

Python Pandas Dataframe GroupBy基于条件的大小

Python Pandas Dataframe GroupBy基于条件的大小

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何检查字符串输入的格式

检查嵌套列表中的长度是否相同

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何自动选择正确的键盘布局？-仅具有一个键盘布局

如何正确比较 scala.xml 节点？

在令牌内联程序集错误之前预期为 ')'

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

解决类Koin的实例时出错

ES5的代理替代

有什么解决方案可以将android设备用作Cast Receiver？

VBA 自动化错误：-2147221080 (800401a8)

套接字无法检测到断开连接