将自定义函数应用于每行仅使用参数的第一个值

Aziggy 发表于 Dev

阿齐吉

我正在尝试使用以下数据集将NA值重新编码0为列的子集：

set.seed(1)
df <- data.frame(
  id = c(1:10),
  trials = sample(1:3, 10, replace = T),
  t1 = c(sample(c(1:9, NA), 10)),
  t2 = c(sample(c(1:7, rep(NA, 3)), 10)),
  t3 = c(sample(c(1:5, rep(NA, 5)), 10))
  )

每行都有与之相关的一定次数的试验（在1-3之间），由trials列指定。列t1-t3代表每个试验的分数。

试用次数表示NA应将s编码为的列的子集0：NA在试用次数之内的s表示缺少数据，应将其重新编码为0，而NA在试用次数之外的s没有意义，应保留NAs 。因此，对于其中的行trials == 3，NAin列t3将被重新编码为0，但是对于其中的行trials == 2，NAint3将保留为NA。

因此，我尝试使用此功能：

replace0 <- function(x, num.sun) {
  x[which(is.na(x[1:(num.sun + 2)]))] <- 0
  return(x)
}

这对于单个向量效果很好。当我尝试使用将相同的功能应用于数据框时apply()：

apply(df, 1, replace0, num.sun = df$trials)

我收到警告说：

In 1:(num.sun + 2) :
  numerical expression has 10 elements: only the first used

结果是，与其根据中的值来num.sun改变每一行的值trials，apply()不如trials对每一行使用列中的第一个值。我如何应用该函数，以使num.sun参数根据的值而变化df$trials？

谢谢！

编辑：正如一些评论所述，原始示例数据具有一些非NA得分，根据试验列，这些得分没有意义。这是一个更正的数据集：

df <- data.frame(
  id = c(1:5),
  trials = c(rep(1, 2), rep(2, 1), rep(3, 2)),
  t1 = c(NA, 7, NA, 6, NA),
  t2 = c(NA, NA, 3, 7, 12),
  t3 = c(NA, NA, NA, 4, NA)
)

夏普

另一种方法：

# create an index of the NA values
w <- which(is.na(df), arr.ind = TRUE)

# create an index with the max column by row where an NA is allowed to be replaced by a zero
m <- matrix(c(1:nrow(df), (df$trials + 2)), ncol = 2)

# subset 'w' such that only the NA's which fall in the scope of 'm' remain
i <- w[w[,2] <= m[,2][match(w[,1], m[,1])],]

# use 'i' to replace the allowed NA's with a zero
df[i] <- 0

这使：

> df
   id trials t1 t2 t3
1   1      1  3 NA  5
2   2      2  2  2 NA
3   3      2  6  6  4
4   4      3  0  1  2
5   5      1  5 NA NA
6   6      3  7  0  0
7   7      3  8  7  0
8   8      2  4  5  1
9   9      2  1  3 NA
10 10      1  9  4  3

您可以轻松地将其包装在一个函数中：

replace.NA.with.0 <- function(df) {
  w <- which(is.na(df), arr.ind = TRUE)
  m <- matrix(c(1:nrow(df), (df$trials + 2)), ncol = 2)
  i <- w[w[,2] <= m[,2][match(w[,1], m[,1])],]
  df[i] <- 0
  return(df)
}

现在，使用replace.NA.with.0(df)将产生以上结果。

正如其他人所指出的，某些行（1、3和10）的值比尾数更多。您可以通过将上面的函数重写为以下方法来解决该问题：

replace.with.NA.or.0 <- function(df) {
  w <- which(is.na(df), arr.ind = TRUE)
  df[w] <- 0

  v <- tapply(m[,2], m[,1], FUN = function(x) tail(x:5,-1))
  ina <- matrix(as.integer(unlist(stack(v)[2:1])), ncol = 2)
  df[ina] <- NA

  return(df)
}

现在，使用replace.with.NA.or.0(df)产生以下结果：

   id trials t1 t2 t3
1   1      1  3 NA NA
2   2      2  2  2 NA
3   3      2  6  6 NA
4   4      3  0  1  2
5   5      1  5 NA NA
6   6      3  7  0  0
7   7      3  8  7  0
8   8      2  4  5 NA
9   9      2  1  3 NA
10 10      1  9 NA NA

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-24

我来说两句

0 条评论

登录后参与评论

上一篇：Symfony 4选民-角色和权限问题

TOP 榜单

文章

将自定义函数应用于每行仅使用参数的第一个值

将自定义函数应用于每行仅使用参数的第一个值

验证REST API参数

带有错误“ where”条件的查询如何返回结果？

使用SciPy的最小值来找到图中的最短路径

OpenGL纹理格式的颜色错误

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

如何清除已撤销的GPG密钥？

OpenCv：改变 putText() 的位置

Python PIL putdata颜色必须为int或tuple

如何通过 iOS SDK 通过蓝牙将字体发送到 Zebra 打印机 (Zebra imz320)

如何从JavaScript中的MP3文件读取元数据属性？

如何根据Azure中的部署名称删除所有部署的资源

IE 11中的FormData未定义

混乱的EFI分区，启动时没有启动选项

如何在R中转置数据

Redux动作正常，但减速器无效

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

超过时间限制错误C ++

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

如何对treeView的子节点进行排序

去噪自动编码器和常规自动编码器有什么区别？

在where子句中使用AVG函数和DATEADD进行嵌套查询