熊猫在合并两个数据框时创建一个标志

daiyue 发表于 Dev

daiyue

我有两个df-df_a和df_b，

# df_a
number    cur
1000      USD
2000      USD
3000      USD

# df_b
number    amount    deletion
1000      0.0       L
1000      10.0      X
1000      10.0      X
2000      20.0      X
2000      20.0      X
3000      0.0       L
3000      0.0       L

我想左合并df_a有df_b，

df_a = df_a.merge(df_b.loc[df_b.deletion != 'L'], how='left', on='number')
df_a.fillna(value={'amount':0}, inplace=True)

而且创建一个名为标志deleted的结果df_a，有三种可能的值- full，partial和none;

full-如果所有与特定number值关联的行都具有deletion = L;

partial-如果某些行与特定number值关联，则具有deletion = L;

none-没有与特定number值关联的行deletion = L；

此外，当执行合并，从行df_b与deletion = L不应该被考虑; 所以结果看起来像

 number    amount    deletion    deleted    cur
 1000      10.0      X           partial    USD
 1000      10.0      X           partial    USD
 2000      20.0      X           none       USD
 2000      20.0      X           none       USD
 3000      0.0       NaN         full       USD

我想知道如何实现这一目标。

耶斯列尔

想法是比较deletion列和汇总all，并any创建助手dictionary和最后map对新列：

g = df_b['deletion'].eq('L').groupby(df_b['number'])
m1 = g.any()
m2 = g.all()

d1 = dict.fromkeys(m1.index[m1 & ~m2], 'partial')
d2 = dict.fromkeys(m2.index[m2], 'full')
#join dictionries together
d = {**d1, **d2}
print (d)
{1000: 'partial', 3000: 'full'}

df = df_a.merge(df_b.loc[df_b.deletion != 'L'], how='left', on='number')
df['deleted'] = df['number'].map(d).fillna('none')
print (df)
   number  cur  amount deletion  deleted
0    1000  USD    10.0        X  partial
1    1000  USD    10.0        X  partial
2    2000  USD    20.0        X     none
3    2000  USD    20.0        X     none
4    3000  USD     NaN      NaN     full

对于指定列none，如果要为其创建字典：

d1 = dict.fromkeys(m1.index[m1 & ~m2], 'partial')
d2 = dict.fromkeys(m2.index[m2], 'full')
d3 = dict.fromkeys(m2.index[~m1], 'none')
d = {**d1, **d2, **d3}
print (d)
{1000: 'partial', 3000: 'full', 2000: 'none'}

df = df_a.merge(df_b.loc[df_b.deletion != 'L'], how='left', on='number')
df['deleted'] = df['number'].map(d)
print (df)
   number  cur  amount deletion  deleted
0    1000  USD    10.0        X  partial
1    1000  USD    10.0        X  partial
2    2000  USD    20.0        X     none
3    2000  USD    20.0        X     none
4    3000  USD     NaN      NaN     full

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-12-2

我来说两句

0 条评论

登录后参与评论

熊猫在合并两个数据框时创建一个标志

熊猫在合并两个数据框时创建一个标志

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何正确比较 scala.xml 节点？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

在令牌内联程序集错误之前预期为 ')'

数据表中有多个子行，asp.net核心中来自sql server的数据

VBA 自动化错误：-2147221080 (800401a8)

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何在JavaScript中获取数组的第n个元素？

检查嵌套列表中的长度是否相同

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

ES5的代理替代

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

如何监视应用程序而不是单个进程的CPU使用率？

如何检查字符串输入的格式

解决类Koin的实例时出错

如何自动选择正确的键盘布局？-仅具有一个键盘布局