如何根据以前和将来的值填充缺失或空值？

杰伊·汗

假设我有以下数据集

我想基于A的过去和未来值填充此数据集（变量A）。例如，对于ID= 1前三个值，基于未来值也将变为X。对于ID=2，丢失的值将变为X，因为过去和将来的值也为X。对于ID = 3将来，即使将来还有另一个值Y，它也会变为X，但是其相邻的值为X，因此它将变为X。因为ID= 4我们将仅基于丢失值过去的。

基本上，该算法应首先查看过去的值；如果没有过去的值可用，则应使用将来的值。

我知道根据均值和中位数来填充缺失值，但是由于变量A不是数字，并且标准在每个步骤都在不断变化，我该如何解决这个问题？

阿克伦

我们可以使用na.locffromzoo来用先前的值填充缺失的值。为此，我们将“ 0”值转换为“ NA”。使用data.table，我们可以将'data.frame'转换为'data.table'（setDT(df1)），并按'ID'列分组，我们使用na.locf和na.rm=FALSE选项使用先前的非缺失值填充缺失值。然后，我们可以再次运行na.locf带有fromLast=TRUE选项的选项，以使观察结果向后进行，并将其余部分填充到NAs“ A”列中。

library(zoo)
library(data.table)
is.na(df1$A) <- df1$A==0
setDT(df1)[,A := na.locf(na.locf(A, na.rm=FALSE), fromLast=TRUE) , by = ID]
df1
#    ID A
# 1:  1 X
# 2:  1 X
# 3:  1 X
# 4:  1 X
# 5:  2 X
# 6:  2 X
# 7:  2 X
# 8:  2 X
# 9:  3 X
#10:  3 X
#11:  3 X
#12:  3 Y
#13:  4 X
#14:  4 X
#15:  4 X
#16:  4 Y

数据

df1 <- structure(list(ID = c(1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 3L, 3L, 
3L, 3L, 4L, 4L, 4L, 4L), A = c("0", "0", "0", "X", "X", "X", 
"0", "X", "X", "0", "X", "Y", "X", "X", "0", "Y")), .Names = c("ID", 
"A"), class = "data.frame", row.names = c(NA, -16L))

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-04-2

我来说两句

0 条评论

登录后参与评论

上一篇：寻找CAPS LOCK / NUM LOCK和HDD活动指示器

TOP 榜单

文章

如何根据以前和将来的值填充缺失或空值？

如何根据以前和将来的值填充缺失或空值？

数据

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何检查字符串输入的格式

检查嵌套列表中的长度是否相同

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何自动选择正确的键盘布局？-仅具有一个键盘布局

如何正确比较 scala.xml 节点？

在令牌内联程序集错误之前预期为 ')'

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

解决类Koin的实例时出错

ES5的代理替代

有什么解决方案可以将android设备用作Cast Receiver？

VBA 自动化错误：-2147221080 (800401a8)

套接字无法检测到断开连接