计算一个数据帧内两列中以相反对形式存在的唯一值的数量?

em4019

我有一个包含数千行用户交互数据的数据框。

我用它来给我的用户ID以某些字母开头的用户

df[
df.userA.str.startswith(('b','c','e','f','5')) &
df.userB.str.startswith(('b','c','e','f','5'))
]

哪个返回了看起来像这样的东西

   userA column:                           userB column:                           timestamp column: 
   f55570ac-c757-4e1f-b0b2-34997614f929    5ccd7ffd-7776-4a81-81dd-5331972454c2   2017-12-12 00:00:00
   5bfb4313-1d38-4dd2-944d-82bcabea9e31    ebc48322-f8b8-4994-968c-93e8d9e9df1d   2017-12-13 00:03:00
   ebc48322-f8b8-4994-968c-93e8d9e9df1d    5bfb4313-1d38-4dd2-944d-82bcabea9e31   2017-12-14 00:03:00

“显示”的是在第一行中,用户f55570ac-在该时间戳后紧随用户5ccdffd。

在第二行中,用户随后5bfb4313-在该时间戳ebc48322-,以及在第三行中,用户随后ebc48322-用户5bfb4313-在该时间戳回来,并因此具有相互关系

如何计算整个数据框中相互关系的数量即,在userA列和userB列中存在一对唯一的userID

任何想法将不胜感激:)

娜迦基兰

如果您只想检查colB中的colA值,则可以使用此代码段

df['userA column: '].isin(df['userB column: ']).sum()

出:

2

在userA和userB中查找出现次数计数

pd.concat([df['userA']+'->'+df['userB'],df['userB']+'->'+df['userA']]).value_counts()

出:

5bfb4313-1d38-4dd2-944d-82bcabea9e31->ebc48322-f8b8-4994-968c-93e8d9e9df1d    2
ebc48322-f8b8-4994-968c-93e8d9e9df1d->5bfb4313-1d38-4dd2-944d-82bcabea9e31    2
5ccd7ffd-7776-4a81-81dd-5331972454c2->f55570ac-c757-4e1f-b0b2-34997614f929    1
f55570ac-c757-4e1f-b0b2-34997614f929->5ccd7ffd-7776-4a81-81dd-5331972454c2    1

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

根据两个列值是否存在于另一个数据帧中组合两个数据帧

如何基于另一个数据帧中唯一值的数量创建变量?

如何计算一个数据帧的两列中某个元素的出现次数?

计算来自一个数据帧中的一列在另一数据帧中的单词的唯一出现次数

Python 将一个数据帧中多列的值添加到另一个数据帧(如果不存在)

根据唯一值过滤整个数据帧,并在R中创建一个新列

R-数据帧列中唯一值的数量

从列表内的两个数据帧中,我需要减去两列并获得另一个数据帧

创建一个循环或函数来收集使用r?中另一个数据帧中的一个数据帧中的其他列值计算的多个向量的值。

根据另一个数据帧中的值将数据帧的列相乘

计算一个数据帧中的值在另一数据帧中重复的次数

是否有一个很好的 R 函数来分隔两个数据帧之间的唯一列值,保留行?

在一个数据帧中拆分所有列,并在R中创建两个数据帧

映射两个数据帧,计算第二个数据帧中的时间戳在第一个数据帧的日期时间范围内的事件

过滤一个数据帧的值(如果存在)而在另一个数据帧中不存在

基于一个数据帧中的multiindex和另一个数据帧中的列,从两个数据帧中创建两个数据帧

提取一列的唯一值并计算与第一个数据帧相关的同一数据框的第二个列的值

在pyspark中将两个数据帧中的一个数据帧作为单独的子列

Pyspark:基于一个列值从另一个数据帧中减去一个数据帧

将一个熊猫数据帧合并到另一个熊猫数据帧,并从第二个数据帧中删除第一个数据帧中存在的值

如果特定列的值在两个数据帧中都匹配,则将一个数据帧的行复制到另一数据帧

组合两个数据帧,以便一个数据帧中的值成为另一数据帧中的标头

根据一个公共列从两个数据帧中减去列

查看一个数据帧行中的所有值是否存在于另一个数据帧中

从两个数据帧计算一个新的熊猫数据帧

根据R中的两个匹配条件,将值从一个数据帧添加到另一个数据帧

如何保留数据帧中的所有值,除非另一个数据帧中存在 NaN?

如果熊猫数据帧列中的值存在于另一个数据帧中,则更新它们

比较一个数据帧中的两对列以检测不匹配并显示同一行中另一列的值