我想在管道中应用一年的线性外推法。我想做的事情与没有分组的简单示例非常相似。但在管道内使用dplyr::group_by()
。有一些例子像这样的,这一个或这一个。但是我无法获得理想的输出。
可重现的示例:
test.frame <- data.frame(Country =
rep(c("Austria", "Brazil", "Canada"), each = 3, times = 3),
Entity = rep(c("CO2","CH4","N2O"), times = 9),
Year = rep(c(1990:1992), each = 9),
value = runif(27, 1,5))
test.frame2 <- data.frame(Country =
rep(c("Austria", "Brazil", "Canada"), each = 3),
Entity = rep(c("CO2","CH4","N2O"), times = 3),
Year = rep(c(1993), each = 3),
value = 0)
results_frame <- test.frame %>%
dplyr::bind_rows(test.frame2)
我有两个分组类别(“国家”和“实体”),我想使用1990年至1992年的值通过线性外推法填充1993年的值。基于此,我可以估计线性模型:
linear_model <- test.frame %>%
dplyr::group_by(Country, Entity) %>%
lm(value ~ Year, data=.)
results <- predict.lm(linear_model, test.frame2)
但是,这results
并没有显示出理想的输出。因此,按照此处提出的解决方案,我尝试以下操作:
results_frame <- test.frame %>%
dplyr::group_by(Country, Entity) %>%
do(lm( value ~ Year , data = test.frame)) %>%
predict.lm(linear_model, test.frame2) %>%
bind_rows(test.frame)
但这不起作用,相反,我得到了
错误:结果1、2、3、4、5,...必须是数据帧,而不是lm
任何帮助将不胜感激!
在拟合和预测时,必须小心使用正确的数据:
library(dplyr)
set.seed(42)
test.frame <- data.frame(Country = rep(c("Austria", "Brazil", "Canada"), each = 3, times = 3),
Entity = rep(c("CO2","CH4","N2O"), times = 9),
Year = rep(c(1990:1992), each = 9),
value = runif(27, 1,5))
test.frame %>%
group_by(Country, Entity) %>%
do(lm( value ~ Year , data = .) %>%
predict(., data.frame(Year = 1993)) %>%
data_frame(Year = 1993, value = .)) %>%
bind_rows(test.frame)
#> # A tibble: 36 x 4
#> # Groups: Country, Entity [9]
#> Country Entity Year value
#> <fct> <fct> <dbl> <dbl>
#> 1 Austria CH4 1993 2.10
#> 2 Austria CO2 1993 2.03
#> 3 Austria N2O 1993 6.02
#> 4 Brazil CH4 1993 4.90
#> 5 Brazil CO2 1993 0.771
#> 6 Brazil N2O 1993 5.28
#> 7 Canada CH4 1993 4.69
#> 8 Canada CO2 1993 0.729
#> 9 Canada N2O 1993 1.49
#> 10 Austria CO2 1990 4.66
#> # ... with 26 more rows
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句