创建组中顺序出现的索引

Jakob 发表于 Dev

雅各布

我在R中有一个大数据框，两组可能看起来像这样：

id     tnr
1      1
1      1-3
1      4
1      5
1      6
1      6-8
1      8-9
1      10
1      10-11
1      12
2      1
2      2
2      3
2      3-4

问题是数字重叠。第一步，我将-字符拆分为数字，以便将两个部分都转换为数字。然后，我与ifelse-statement进行了一些比较，以确定重叠的数字，这给了我这样的数据框：

id     tnr     ovlp
1      1       1
1      1-3     1
1      4       0
1      5       0
1      6       1
1      6-8     1
1      8-9     1
1      10      1
1      10-11   1
1      12      0
2      1       0
2      2       0
2      3       0
2      3-4     1

最后，我需要确定组中每个子组的出现。结果应该是这样的：

id     tnr     ovlp     occ
1      1       1        1
1      1-3     1        1
1      4       0        0
1      5       0        0
1      6       1        2
1      6-8     1        2
1      8-9     1        2
1      10      1        3
1      10-11   1        3
1      12      0        0
2      1       0        0
2      2       0        0
2      3       1        1
2      3-4     1        1

我首先考虑过使用0定界符为每个序列编号。这适用于大多数情况，但有时0两个序列之间没有任何关系。像在示例中一样，当我在第一组中有从6-9到10-11的重叠数字时。所以，我想我需要以ifelse某种方式使用我的-statements将此索引粘贴到occ-column上，但是我不知道如何。有任何想法吗？任何帮助表示赞赏。

谢谢！

编辑：我用来识别重叠数字的代码：

df <- df %>% 
  mutate(ovlp = ifelse(tnr_a == lag(tnr_a) & id == lag(id) |
                               is.na(tnr_b) == FALSE & tnr_b == lag(tnr_b) & id == lag(id) |
                               tnr_a == lag(tnr_b & is.na(tnr_b) == FALSE & is.na(lag(tnr_b)) == FALSE & id == lag(id) |
                               lag(tnr_a) == tnr_b & is.na(tnr_b) == FALSE & is.na(lag(tnr_b)) == FALSE & id == lag(id) |
                               tnr_b == lag(tnr_b) & is.na(tnr_b) == FALSE & is.na(lag(tnr_b)) == FALSE & id == lag(id) |
                               str_detect(tnr, "\\-") == TRUE & lag(tnr_a) > tnr_a & lag(tnr_a) < tnr_b |
                               lag(str_detect(tnr, "\\-")) == TRUE & lag(tnr_a_) < tnr_a & lag(tnr_a) > tnr_b, 
                             1, 0)) %>%
  relocate(ovlp, .after = tnr) %>% 
  mutate(ovlp = ifelse(lead(ovlp) == 1 & lead(id) == id, 1, tnr_gruppe))

编辑2：样本数据

df <- structure(list(id = c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
2L, 2L, 2L, 2L), tnr = c("1", "1-3", "4", "5", "6", "6-8", "8-9", 
"10", "10-11", "12", "1", "2", "3", "3-4")), class = "data.frame", row.names = c(NA, 
-14L))

tmfmnk

一种涉及dplyr并且tidyr可能的选择是：

df %>%
 rowid_to_column() %>%
 separate_rows(tnr) %>%
 group_by(id, tnr) %>%
 mutate(ovlp = as.integer(n() > 1)) %>%
 group_by(id) %>%
 mutate(occ = with(rle(ovlp), rep(cumsum(values) * values, lengths))) %>%
 group_by(rowid) %>%
 summarise(across(-tnr, first),
           across(tnr, ~ paste(., collapse = "-"))) 

   rowid    id  ovlp   occ tnr  
   <int> <int> <int> <int> <chr>
 1     1     1     1     1 1    
 2     2     1     1     1 1-3  
 3     3     1     0     0 4    
 4     4     1     0     0 5    
 5     5     1     1     2 6    
 6     6     1     1     2 6-8  
 7     7     1     1     2 8-9  
 8     8     1     1     3 10   
 9     9     1     1     3 10-11
10    10     1     0     0 12   
11    11     2     0     0 1    
12    12     2     0     0 2    
13    13     2     1     1 3    
14    14     2     1     1 3-4

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-27

我来说两句

0 条评论

登录后参与评论

上一篇：如何构造请求异常处理并检查200个响应？

创建组中顺序出现的索引

创建组中顺序出现的索引

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用