使用字符串向量在 R 中循环自定义 ifelse 函数

brad 发表于 Dev

布拉德

如果关联列中的值低于样本大小阈值，我会为列中的 NA 值编写一个函数。如果一次应用于 1 个变量，则该函数有效。

# Create dataframe
DF <- data.frame(VehicleType = c("Car","Car","LuxeryCar","Car","Car","LuxeryCar","LuxeryCar"),
                 Brand = c("Honda","Audi","Bentley","Chevrolet","Hyundai","Maserati","Porsche"),
                 VarA_Low=c(15000, 30000, 50000, 40000, 15000, 100000, 100000),
                 VarA_Medium=c(40000, 70000, 100000, 90000, 25000, 200000, 180000),
                 VarA_High=c(20000, 150000, 500000, 190000, 80000, 1000000, 500000),
                 VarA_SampleSize=c(39,44,51,35,45,65,53),
                 VarB_Low=c(15000, 30000, 50000, 40000, 15000, 100000, 100000),
                 VarB_Medium=c(40000, 70000, 100000, 90000, 25000, 200000, 180000),
                 VarB_High=c(20000, 150000, 500000, 190000, 80000, 1000000, 500000),
                 VarB_SampleSize=c(2,40,92,47,51,39,40))

# NA values if associated SampleSize is below 40
NA_values <- function(m) {
  m <- deparse(substitute(m))
  Var_L <- paste0(as.character(m), "_Low")
  Var_M <- paste0(as.character(m), "_Medium")
  Var_H <- paste0(as.character(m), "_High")
  Count <- paste0(as.character(m), "_SampleSize")
  DF[,Var_L] <- ifelse(DF[,Count] < 40, NA, DF[,Var_L])
  DF[,Var_M] <- ifelse(DF[,Count] < 40, NA, DF[,Var_M])
  DF[,Var_H] <- ifelse(DF[,Count] < 40, NA, DF[,Var_H])
  return(DF)
}

# Apply function to one variable at a time
DF <- NA_values(VarA)
DF <- NA_values(VarB)

这是有效的，但我的解决方案是不切实际的，因为我通常有数百个变量，列名会发生变化，以及变量的数量。我想将所有变量声明为字符串向量并将该函数应用于所有变量。

# Declare variables as a string vector
Vars <- c("VarA", "VarB")

# Create dataframe to store results
DF_NA <- DF

# Loop over DF and store results in DF_NA
for (item in Vars) 
{
  DF_NA[, c(item)] <- NA_values(item)
}

这会导致错误消息“选择了未定义的列”

罗纳克·沙阿

棘手的部分是您需要在一次迭代中更新数据框中的多个列，并在下一次迭代中“记住”它们。

这是执行此操作的一种方法：

NA_values <- function(DF, cols, sample_col) {
   DF[cols] <- lapply(cols, function(x) ifelse(DF[, sample_col] < 40, NA, DF[,x]))
   return(DF)
}

Vars <- c("VarA", "VarB")

for (item in Vars) {
  cols <- paste0(item, c("_Low", "_Medium", "_High"))
  sample_col <- paste0(item, "_SampleSize")
  DF_NA <- NA_values(DF_NA, cols, sample_col)
}

DF_NA
#  VehicleType     Brand VarA_Low VarA_Medium VarA_High VarA_SampleSize VarB_Low VarB_Medium VarB_High VarB_SampleSize
#1         Car     Honda       NA          NA        NA              39       NA          NA        NA               2
#2         Car      Audi    30000       70000    150000              44    30000       70000    150000              40
#3   LuxeryCar   Bentley    50000      100000    500000              51    50000      100000    500000              92
#4         Car Chevrolet       NA          NA        NA              35    40000       90000    190000              47
#5         Car   Hyundai    15000       25000     80000              45    15000       25000     80000              51
#6   LuxeryCar  Maserati   100000      200000   1000000              65       NA          NA        NA              39
#7   LuxeryCar   Porsche   100000      180000    500000              53   100000      180000    500000              40

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-08-3

我来说两句

0 条评论

登录后参与评论

使用字符串向量在 R 中循环自定义 ifelse 函数

使用字符串向量在 R 中循环自定义 ifelse 函数

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID