我有一个包含1995-2013年的巴西直辖市的面板数据。代码是市政ID。Nome是市政名称,而ano是采用公共政策的年份(零表示他们从未实施过该政策。)
code Nome ano
1 1100015 ALTA FLORESTA DOESTE 2010
2 1100023 ARIQUEMES 2006
3 1100031 CABIXI 0
4 1100049 CACOAL 2006
5 1100056 CEREJEIRAS 2014
6 1100064 COLORADO DO OESTE 2006
我有以下问题:
在市X于X年采用公共政策之后,我如何在R中生成虚拟变量,其值为1,否则如何生成0?
在下面,您可以以较宽的格式查看预期的输出,该输出更易于可视化。(但是,我会将数据转换为长格式以与其他数据合并。如您所见,此示例中的数据仅在2006年之后开始,否则就不会开始。)
code Nome 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013
1 1100015 ALTA FLORESTA DOESTE 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1
2 1100023 ARIQUEMES 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1
3 1100031 CABIXI 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
4 1100049 CACOAL 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1
5 1100056 CEREJEIRAS 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
6 1100064 COLORADO DO OESTE 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1
我在这个论坛中发现了类似的问题,但不是我要问的问题。
这是使用的选项tidyverse
。创建一个list
具有从'ano'到2013的每个值的序列unnest
的list
列,该列,创建一个1s('val')的列,并按'code','Nome'分组,complete
从1995年到2013年展开数据集for,在fill
不存在组合的情况下将“ val”的值设置为0,ungroup
然后使用pivot_wider
library(dplyr)
library(tidyr) #1.0.0
library(purrr)
df1 %>%
mutate(ano = case_when(between(ano, 1995, 2013) ~
map(ano, ~ .x:2013), TRUE ~ list(NA_integer_))) %>%
unnest(ano) %>%
mutate(val = 1) %>%
group_by(code, Nome) %>%
complete(ano = 1995:2013, fill = list(val = 0)) %>%
ungroup %>%
filter(!is.na(ano)) %>%
pivot_wider(names_from = ano, values_from = val)
# A tibble: 6 x 21
# code Nome `1995` `1996` `1997` `1998` `1999` `2000` `2001` `2002` `2003` `2004` `2005` `2006` `2007` `2008` `2009` `2010` `2011` `2012` `2013`
# <int> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
#1 1100015 ALTA FLORESTA DOESTE 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1
#2 1100023 ARIQUEMES 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1
#3 1100031 CABIXI 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
#4 1100049 CACOAL 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1
#5 1100056 CEREJEIRAS 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
#6 1100064 COLORADO DO OESTE 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1
df1 <- structure(list(code = c(1100015L, 1100023L, 1100031L, 1100049L,
1100056L, 1100064L), Nome = c("ALTA FLORESTA DOESTE", "ARIQUEMES",
"CABIXI", "CACOAL", "CEREJEIRAS", "COLORADO DO OESTE"), ano = c(2010L,
2006L, 0L, 2006L, 2014L, 2006L)), class = "data.frame", row.names = c(NA,
-6L))
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句