熊猫根据在另一列上有条件的随机值样本替换NaN值

朱利安·德拉戈（Julian Drago）

说我有一个像这样的数据框：

import pandas as pd
import numpy as np

np.random.seed(0)

df = {}
df['x'] = np.concatenate([np.random.uniform(0, 5, 4), np.random.uniform(5, 10, 4)])
df['y'] = np.concatenate([[0] * 4, [1] * 4])
df = pd.DataFrame(df)

df.loc[len(df) + 1] = [np.NaN, 0]
df.loc[len(df) + 1] = [np.NaN, 1]
df
Out[232]: 
           x    y
0   2.744068  0.0
1   3.575947  0.0
2   3.013817  0.0
3   2.724416  0.0
4   7.118274  1.0
5   8.229471  1.0
6   7.187936  1.0
7   9.458865  1.0
9        NaN  0.0
10       NaN  1.0

我想要做的是NaN基于基于值的随机样本x值填充y值。

例如，在第9行（y为0）中，我想NaN用仅从x值为y0的值中随机抽样的数字代替。实际上，我将从以下列表中抽样：

df[df['y'] == 0]['x'].dropna().values.tolist()
Out[233]: [2.7440675196366238, 3.5759468318620975, 3.0138168803582195, 2.724415914984484]

同样，对于第10行，我将仅基于'x'值（其中y为1而不是0）进行采样。我无法找到以编程方式进行处理的方法（至少，这不是一种不好的做法），例如遍历数据框行）。

我咨询过Pandas：使用列值随机抽样替换NaN，这向我展示了如何从列中的所有值中随机抽样，但是我需要随机抽样以另一列的不同值为条件。我还看到了用条件均值（例如this）替换NaN的答案，但是我希望随机抽样而不是使用均值。

海盗

`transform` 与 `choice`

我放弃了提高可读性的效率。请注意，我为每一行生成一个随机选择，但只选择我需要填写空值的数字。从理论上讲，我可以做到这样，我只为那些缺失的值选择随机数。

def f(s):
    mask = s.isna()
    return np.where(mask, np.random.choice(s[~mask], len(s)), s)

df.assign(x=df.groupby('y')['x'].transform(f))

           x    y
0   2.744068  0.0  # <━┓
1   3.575947  0.0  #   ┃
2   3.013817  0.0  #   ┃
3   2.724416  0.0  #   ┃
4   7.118274  1.0  #   ┃
5   8.229471  1.0  # <━╋━┓
6   7.187936  1.0  #   ┃ ┃
7   9.458865  1.0  #   ┃ ┃
9   2.744068  0.0  # <━┛ ┃
10  8.229471  1.0  # <━━━┛

稍稍钝一些，但只能根据需要选择。

def f(s):
    out = s.to_numpy().copy()
    mask = s.isna().to_numpy()
    out[mask] = np.random.choice(out[~mask], mask.sum())
    return out

df.assign(x=df.groupby('y')['x'].transform(f))

           x    y
0   2.744068  0.0  # <━┓
1   3.575947  0.0  #   ┃
2   3.013817  0.0  #   ┃
3   2.724416  0.0  #   ┃
4   7.118274  1.0  # <━╋━┓
5   8.229471  1.0  #   ┃ ┃
6   7.187936  1.0  #   ┃ ┃
7   9.458865  1.0  #   ┃ ┃
9   2.744068  0.0  # <━┛ ┃
10  7.118274  1.0  # <━━━┛

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-22

我来说两句

0 条评论

登录后参与评论

上一篇：如何在Python中仅打印JSON之类的字符串

熊猫groupby，在一个列上有条件以填充另一列

熊猫根据在另一列上有条件的随机值样本替换NaN值

熊猫根据在另一列上有条件的随机值样本替换NaN值

transform 与 choice

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

`transform` 与 `choice`