将一个熊猫数据帧合并到另一个熊猫数据帧，并从第二个数据帧中删除第一个数据帧中存在的值

165

Vishwajeet Mane

我有两个熊猫数据框，如下所示：-

DF1

     date1      hours   value    Field  count1
1   2021-01-15   9       eps       EPS          770915
2   2021-01-22   9       eps       EPS          797503

DF2

        date1       hours   value      Field    count1
  0     2021-01-09   9       eps        EPS     0
  1     2021-01-10   9       eps        EPS     0
  2     2021-01-11   9       eps        EPS     0
  3     2021-01-12   9       eps        EPS     0
  4     2021-01-13   9       eps        EPS     0
  5     2021-01-14   9       eps        EPS     0
  6     2021-01-15   9       eps        EPS     0
  7     2021-01-16   9       eps        EPS     0
  8     2021-01-17   9       eps        EPS     0
  9     2021-01-18   9       eps        EPS     0
 10     2021-01-19   9       eps        EPS     0
 11     2021-01-20   9       eps        EPS     0
 12     2021-01-21   9       eps        EPS     0
 13     2021-01-22   9       eps        EPS     0

我想要如下输出：-

结果：-

        date1       hours   value      Field    count1
  0     2021-01-09   9       eps        EPS     0
  1     2021-01-10   9       eps        EPS     0
  2     2021-01-11   9       eps        EPS     0
  3     2021-01-12   9       eps        EPS     0
  4     2021-01-13   9       eps        EPS     0
  5     2021-01-14   9       eps        EPS     0
  6     2021-01-15   9       eps        EPS     770915
  7     2021-01-16   9       eps        EPS     0
  8     2021-01-17   9       eps        EPS     0
  9     2021-01-18   9       eps        EPS     0
 10     2021-01-19   9       eps        EPS     0
 11     2021-01-20   9       eps        EPS     0
 12     2021-01-21   9       eps        EPS     0
 13     2021-01-22   9       eps        EPS     797503

列DF1和DF2的数据类型如下：-

date1          object
hours           int64 
value          object
Field          object
count1          int64

DF2始终包含14天，而DF1始终包含介于1到14之间的可变天。我希望结果数据框包含缺少的天字段，第二个数据框中的零。

耶斯列尔

使用concat有DataFrame.drop_duplicates：

df = (pd.concat([DF1, DF2], ignore_index=True)
        .drop_duplicates(['date1','hours','value','Field']))

如果有必要进行排序输出：

df = (pd.concat([DF1, DF2], ignore_index=True)
        .drop_duplicates(['date1','hours','value','Field'])
        .sorT_values(['date1','hours','value','Field']))

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。