我有两个数据框,它们是边缘列表,其中前两列包含“源”和“目标”列,第二个数据框包括具有边缘属性的第三列。这两个数据帧的长度不同,我想(1)从一个数据帧中检索不在另一数据帧中的边缘,以及(2)从第二数据帧中获取值以匹配边缘。
例:
> A <- data.frame(source=c("v1", "v1", "v2", "v2"), target=c("v2", "v4", "v3", "v4"))
> B <- data.frame(source=c("V1", "V2", "v1", "V4", "V4", "V5"), target=c("V2", "V5", "V3", "V3", "V2", "V4"), variable=c(3,4,0,2,1,0))
> A
source target
1 v1 v2
2 v1 v4
3 v2 v3
4 v2 v4
> B
source target variable
1 V1 V2 3
2 V2 V5 4
3 v1 V3 0
4 V4 V3 2
5 V4 V2 1
6 V5 V4 0
理想的结果(1):
source target
1 V2 V5
2 V1 V3
3 V4 V3
4 V5 V4
理想的结果(2):
source target variable
1 V1 V2 3
2 V2 V4 1
用R如何做到这一点?
首先,您将获得一个anti_join
,尽管您将需要在源和目标这两种组合上进行反连接,因为在示例中方向似乎无关紧要。请注意,toupper
由于您的示例中的大写字母不固定,因此示例中所建议的情况应忽略,我不得不使用它。
library(dplyr)
anti_join(anti_join(B, A %>% mutate_all(toupper),
by = c("source", "target")),
A %>% mutate_all(toupper),
by = c(target = "source", source = "target")) %>%
select(-variable)
#> source target
#> 1 V2 V5
#> 2 v1 V3
#> 3 V4 V3
#> 4 V5 V4
您可以通过绑定两个inner_join
s获得第二个结果:
bind_rows(inner_join(B, A %>% mutate_all(toupper),
by = c("source", "target")),
inner_join(B, A %>% mutate_all(toupper),
by = c(source = "target", target = "source")))
#> source target variable
#> 1 V1 V2 3
#> 2 V4 V2 1
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句