拆分数据框以创建新列

温特宇

我有一个数据框,其中包含“计数”,“横断面编号”,“数据”和“年份”的列。我的目标是先按Transect分割数据框,然后再按Year分割,然后创建一个新数据框,其中包含“ Transect”列,然后在随后的各列中按每年适当的数据。

要构建虚拟数据帧:

Count1<-1:27
Count2<-1:30
Count3<-1:25
T1<-c(1,1,1,2,2,2,3,3,3,1,1,1,2,2,2,3,3,3,1,1,1,2,2,2,3,3,3)
T2<-c(1,1,1,2,2,2,3,3,3,1,1,1,2,2,2,3,3,3,1,1,1,1,2,2,2,2,3,3,3,3)
T3<-c(1,1,1,2,2,2,3,3,3,1,1,1,2,2,2,3,3,3,1,1,1,2,2,2,3)
Data1<-c(1,2,3,2,1,2,3,4,3,2,1,2,3,4,3,2,1,2,3,4,5,4,3,2,3,3,2)
Data2<-c(1,2,3,2,1,4,3,2,1,2,4,3,2,3,4,3,2,3,4,5,6,4,3,2,1,4,5,4,3,2)
Data3<-c(1,2,3,4,5,4,3,3,3,4,5,4,3,3,2,3,4,5,4,3,4,3,2,3,4)
Year1<-c(2014,2014,2014,2014,2014,2014,2014,2014,2014,2015,2015,2015,2015,2015,2015,2015,2015,2015,2016,2016,2016,2016,2016,2016,2016,2016,2016)
Year2<-c(2014,2014,2014,2014,2014,2014,2014,2014,2014,2015,2015,2015,2015,2015,2015,2015,2015,2015,2016,2016,2016,2016,2016,2016,2016,2016,2016,2016,2016,2016)
Year3<-c(2014,2014,2014,2014,2014,2014,2014,2014,2014,2015,2015,2015,2015,2015,2015,2015,2015,2015,2016,2016,2016,2016,2016,2016,2016)




DF1<-data.frame(Count1,T1,Data1,Year1)
colnames(DF1)<-c("Count","Transect","Data","Year")
DF2<-data.frame(Count2,T2,Data2,Year2)
colnames(DF2)<-c("Count","Transect","Data","Year")
DF3<-data.frame(Count3,T3,Data3,Year3)
colnames(DF3)<-c("Count","Transect","Data","Year")


All<-rbind(DF1,DF2,DF3)

有了数据框后,我的想法是通过样条线分割数据,因为这将是我正在进行的数据集的一个永久方面。

#Step 1-Break down by T
Trans1<-All[All$Transect==1,]
Trans2<-All[All$Transect==2,]
Trans3<-All[All$Transect==3,]
Trans4<-All[All$Transect==4,]
Trans5<-All[All$Transect==5,]

但是下一步我不太清楚。我需要从按年份组织的“数据”列中提取数据。进一步分解数据的方式如下:

Trans1_Year1<-Trans1[Trans1$Year==2014,]
Trans2_Year1<-Trans2[Trans2$Year==2014,]
Trans3_Year1<-Trans3[Trans3$Year==2014,]
Trans4_Year1<-Trans4[Trans4$Year==2014,]
Trans5_Year1<-Trans5[Trans5$Year==2014,]

甚至使用split

ByYear1<-split(Trans1,Trans1$Year)

但是,我希望避免写出上面的代码,因为我希望随着数据集的发展每年增加新的数据。而且我希望该代码在添加新的“年”数据时能够容纳该数据,而不是每年编写新的代码行。

像这样设置数据后,我想创建第二个数据框,其中包含每年的列。一个问题是,每年包含不同数量的行,这对我来说是个问题。但是我的最终结果将包含列:

 "Transect", "Data 2014", "Data 2015", "Data 2016"

由于每年每个样例行中的行数可以不同,因此当每个样例行的行数在年份之间不同时,我想在每个样例节的末尾保留NA。

A5C1D2H2I1M1N2O1R2T1

听起来您基本上是在尝试将数据转换为具有列数年的半宽格式,而不是将其保留为“长”格式。

如果是这种情况,最好添加一个辅助索引列,该列显示“横断面”和“年份”的重复组合。

这可以getanID通过我的“ splitstackshape”包轻松完成“ splitstackshape”还加载“ data.table”,然后您可以dcast.data.table从中使用它来获取宽格式。

library(splitstackshape)
dcast.data.table(getanID(All, c("Transect", "Year")), 
                 Transect + .id ~ Year, value.var = "Data")
#     Transect .id 2014 2015 2016
#  1:        1   1    1    2    3
#  2:        1   2    2    1    4
#  3:        1   3    3    2    5
#  4:        1   4    1    2    4
#  5:        1   5    2    4    5
#  6:        1   6    3    3    6
#  7:        1   7    1    4    4
#  8:        1   8    2    5    4
#  9:        1   9    3    4    3
# 10:        1  10   NA   NA    4
# 11:        2   1    2    3    4
# 12:        2   2    1    4    3
# 13:        2   3    2    3    2
# 14:        2   4    2    2    3
# 15:        2   5    1    3    2
# 16:        2   6    4    4    1
# 17:        2   7    4    3    4
# 18:        2   8    5    3    3
# 19:        2   9    4    2    2
# 20:        2  10   NA   NA    3
# 21:        3   1    3    2    3
# 22:        3   2    4    1    3
# 23:        3   3    3    2    2
# 24:        3   4    3    3    5
# 25:        3   5    2    2    4
# 26:        3   6    1    3    3
# 27:        3   7    3    3    2
# 28:        3   8    3    4    4
# 29:        3   9    3    5   NA
#     Transect .id 2014 2015 2016

然后,如果您真的想在“ Transect”列上拆分,则可以继续使用split,但是由于您现在有了“ data.table”,因此最好坚持使用并利用其许多方便的功能,包括与子集和聚合有关的那些。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章