如何在 R 的数据框中创建具有三个级别的因子？

克莱德森·莱姆斯

我为 19 个不同的距离创建了一个因子，我需要确定三个级别，一个用于直接影响 (DirImp)，另一个用于我各自的间接影响距离，(Dist="1km_","2km_","3km_","4km_" ,"5km_","6km_","7km_","8km_","9km_","10km_","10km","20km","30km","40km","50km","60km"," 70km") 和其他到我的控制区域 (Contrl)，从距离 0 (DirImp) 开始，每公里增加公里直到达到 10 公里，从这一点开始，它每 10 公里增加一次，直到达到 70 公里，并且最后一个距离是控制。

因此，为了澄清，在我的DataFrame一列 (Dist) 中，包含这些距离和其他具有其他信息的列，我使用此代码将其转换为一个因子：

column Dist estructure:


levels(MY.DTAFRAME$Dist)
[1] "DirImp"   "10km"  "10km_" "1km_"  "20km"  "2km_"  "30km" 
[8] "3km_"  "40km"  "4km_"  "50km"  "5km_"  "60km"  "6km_" 
[15] "70km"  "7km_"  "8km_"  "9km_", "control" 

How I would like it to be:
level 1 = Direct impact ("DirImp")
level 2 = Distances ("1km_","2km_","3km_","4km_","5km_","6km_","7km_","8km_","9km_","10km_","10km","20km","30km","40km","50km","60km","70km")
level 3 = Contrl Area  ("Contrl")

Column Dist = ("DirImp", "1km_","2km_","3km_","4km_","5km_","6km_","7km_","8km_","9km_","10km_","10km","20km","30km","40km","50km","60km","70km", "control")

  MY.DATAFRAME$DistFact <- factor(MY.DATAFRAME$Dist, level ordered = TRUE)


  levels(MY.DTAFRAME$DistFact)
  [1] "DirImp"   "10km"  "10km_" "1km_"  "20km"  "2km_"  "30km" 
  [8] "3km_"  "40km"  "4km_"  "50km"  "5km_"  "60km"  "6km_" 
  [15] "70km"  "7km_"  "8km_"  "9km_", "control"

瑞·巴拉达斯

问题是否类似于以下内容？

forcats::fct_collapse(y, 
                      DirImp = grep("DirImp", y, ignore.case = TRUE, value = TRUE), 
                      Distances = grep("km", y, ignore.case = TRUE, value = TRUE),
                      Control = grep("control", y, ignore.case = TRUE, value = TRUE)
                      )
# [1] Distances Distances Distances Distances Distances Distances
# [7] Distances Distances Distances Distances Distances Distances
#[13] Distances Distances Distances Distances Distances Distances
#[19] Distances Distances Distances Distances Distances Distances
#[25] Distances Distances Distances Distances Control   Distances
#Levels: DirImp Distances Control

或者，也许更具可读性，

grep_tmp <- function(pattern, x){
  grep(pattern, x, ignore.case = TRUE, value = TRUE)
}

forcats::fct_collapse(y,
                      DirImp = grep_tmp("DirImp", y), 
                      Distances = grep_tmp("^\\d+km", y),
                      Control = grep_tmp("control", y)
                      )

数据

随着问题中的levels发布，这里是示例数据。

set.seed(1234)
x <- scan(text = '"DirImp"   "10km"  "10km_" "1km_"  "20km"  "2km_"  "30km" 
"3km_"  "40km"  "4km_"  "50km"  "5km_"  "60km"  "6km_" 
"70km"  "7km_"  "8km_"  "9km_" "control"', what = character())

y <- factor(sample(x, 30, TRUE), levels = x)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-08-9

我来说两句

0 条评论

登录后参与评论

上一篇：数组中的随机项目，在 Javascript 中不重复元素

TOP 榜单

文章

如何在 R 的数据框中创建具有三个级别的因子？

如何在 R 的数据框中创建具有三个级别的因子？

Android Studio Kotlin：提取为常量

计算数据帧R中的字符串频率

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

TreeMap中的自定义排序

TYPO3：将 Formhandler 添加到新闻扩展

遍历元素数组以每X秒在浏览器上显示

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

无法连接网络并在Ubuntu 14.04中找到eth0

将辅助轴原点与主要轴对齐

我可以ping IPv6但不能ping IPv4

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

提交html表单时为空

使用C ++ 11将数组设置为零

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称

尝试在Dell XPS13 9360上安装Windows 7时出错

如何在R中转置数据

无法使用 envoy 访问 .ssh/config

未捕获的SyntaxError：带有Ajax帖子的意外令牌u