Pandas - 仅当 MULTIPLE COLUMNs 为空时才用另一列的值填充一列

纳文·库马尔

我有一个像这样的 Pandas DataFrame：

   a      b    c      x    a1     b1     c1     x1
0  aa    ba   ca      9    NaN    NaN    NaN    1
1  ab    bb   cb      9    NaN    NaN    NaN    NaN
2  ac    bc   cd    NaN    NaN    NaN    NaN    NaN
3  ad    bd   cd      9    1      NaN    NaN    NaN
4  ae    be   ce      9    NaN    2      NaN    12
5  af    bf   cf      9    NaN    NaN    3      14
6  ag    bg   cg      9    3      NaN    1      45

我想要做：

   a      b    c      x    a1     b1     c1     x1
0  aa    ba   ca      9    NaN    NaN    NaN    1
1  ab    bb   cb      9    NaN    NaN    NaN    9
2  ac    bc   cc    NaN    NaN    NaN    NaN    NaN
3  ad    bd   cd      9    1      NaN    NaN    NaN
4  ae    be   ce      9    NaN    2      NaN    12
5  af    bf   cf      9    NaN    NaN    3      14
6  ag    bg   cg      9    3      NaN    1      45

解释：

第 0 行：我不希望替换发生，当中已经存在值时x1，甚至当所有a1,b1和c1都是NaNs 时。1和2行：我要填写栏x1与无论是在x，只有只有当列a1，b1并且c1是NaN秒。
行3，4，5和6：我想列x1留为是，当任何一个或从两列a1，b1并且c1是NaN秒。

有没有一种有效的方法来做这个操作？

我已经尝试过如this和this stackoverflow答案所示，但我收到广播错误，大概是因为我试图对多列进行检查。

这是我尝试过的：

np.where(np.isnan(df[['a1', 'b1', 'c1']].values), df['x'].values, df['x1'].values)

和我的错误：

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-32-bb6a0f9faf18> in <module>
----> 1 np.where(np.isnan(df[['a', 'b', 'c']].values), df['x'].values, df['x1'].values)

<__array_function__ internals> in where(*args, **kwargs)

ValueError: operands could not be broadcast together with shapes (176213,6) (176213,) (176213,)

亨利·埃克

一种选择是any在轴=1 上使用：

df['x1'] = np.where(df[['a1', 'b1', 'c1', 'x1']].any(axis=1), df['x1'], df['x'])

df：

    a   b   c    x   a1   b1   c1    x1
0  aa  ba  ca  9.0  NaN  NaN  NaN   1.0
1  ab  bb  cb  9.0  NaN  NaN  NaN   9.0
2  ac  bc  cd  NaN  NaN  NaN  NaN   NaN
3  ad  bd  cd  9.0  1.0  NaN  NaN   NaN
4  ae  be  ce  9.0  NaN  2.0  NaN  12.0
5  af  bf  cf  9.0  NaN  NaN  3.0  14.0
6  ag  bg  cg  9.0  3.0  NaN  1.0  45.0

通过@Jon Clements♦ 的另一种选择：

df.loc[~df[['a1', 'b1', 'c1', 'x1']].any(1), 'x1'] = df['x']

否定any而不是使用的原因all是，any将认为NaN是假的，而all认为NaN是真：

pd.Series([np.nan, np.nan]).any()  # False
pd.Series([np.nan, np.nan]).all()  # True

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-08-27

我来说两句

0 条评论

登录后参与评论

上一篇：为值创建属性 [NonSerialized]

Pandas - 仅当 MULTIPLE COLUMNs 为空时才用另一列的值填充一列

Pandas - 仅当 MULTIPLE COLUMNs 为空时才用另一列的值填充一列

我有一个像这样的 Pandas DataFrame：

我想要做：

解释：

构建类似于Jarvis的本地语言应用程序

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

SQL Server中的非确定性数据类型

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

Swift 2.1-对单个单元格使用UITableView

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

HttpClient中的角度变化检测

如何了解DFT结果

错误：找不到存根。请确保已调用spring-cloud-contract：convert

Embers js中的更改侦听器上的组合框

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何避免每次重新编译所有文件？

Java中的循环开关案例

ng升级性能注意事项

Swift中的指针替代品？

如何使用geoChoroplethChart和dc.js在Mapchart的路径上添加标签或自定义值？

使用分隔符将成对相邻的数组元素相互连接

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

ggplot：对齐多个分面图-所有大小不同的分面

完全禁用暂停（在内核级别？-必须与使用的DE和登录状态无关！）