R中data.table中的快速子集

Alex 发表于 Dev

亚历克斯

给定a data.table，我想快速将其中的项目子集。例如：

dt = data.table(a=1:10, key="a")
dt[a > 3 & a <= 7]

这仍然很慢。我知道我可以进行联接来获取单个行，但是有没有一种方法可以对事实data.table进行排序以获取这种快速子集呢？

这就是我在做什么：

dt1 = data.table(id = 1, ym = c(199001, 199006, 199009, 199012), last_ym = c(NA, 199001, 199006, 199009), v = 1:4, key=c("id", "ym"))
dt2 = data.table(id = 1, ym = c(199001, 199002, 199003, 199004, 199005, 199006, 199007, 199008, 199009, 199010, 199011, 199012), v2 = 1:12, key=c("id","ym"))

对于每个id，这里只有1，并且ymin dt1，我想对v2current ymindt1和last ymin之间的值求和dt1。也就是说，ym == 199006在dt1我想回国list(v2 = 2 + 3 + 4 + 5 + 6)。这些是v2in的值dt2等于或小于当前值ym（不包括前一个ym）。在代码中：

expr = expression({ #browser();
 cur_id = id; 
 cur_ym = ym; 
 cur_dtb = dt2[J(cur_id)][ym <= cur_ym & ym > last_ym]; 
 setkey(cur_dtb , ym);
 list(r = sum(cur_dtb$v2))
})

dt1[,eval(expr ),by=list(id, ym)]

G.格洛腾迪克

为了避免的逻辑条件，执行的滚动加入dt1和dt2。然后ym在内向前移动一个位置id。最后，总结了v2通过id和ym：

setkey(dt1, id, last_ym)
setkey(dt2, id, ym)
dt1[dt2,, roll = TRUE][
       , list(v2 = v2, ym = c(last_ym[1], head(ym, -1))), by = id][
       , list(v2 = sum(v2)), by = list(id, ym)]

请注意，由于要对所有内容进行求和，last_ym因此on键dt1必须为last_ym而不是ym。

结果是：

   id     ym v2
1:  1 199001  1
2:  1 199006 20
3:  1 199009 24
4:  1 199012 33

更新：更正

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-03-6

我来说两句

0 条评论

登录后参与评论

R中矩阵的快速子集

在data.table或快速子集中快速搜索

选择data.table R中的列子集

动态子集 R data.table 中的 rowns

R中data.table的程序化子集

r中的data.table：使用列索引的子集

data.table R中的子集ID和日期

R-基于Data.table快速二进制搜索的子集，在第二个键中具有多个值

R 中同名 data.frame 的子集

R中data.frames列表的子集

在R中堆叠data.frame的子集

R从data.table列中搜索大写单词的子集字符串

将data.table列的子集传递给函数，并通过R中的引用将结果加回

总结data.table-在R中按日期创建多个列子集

如何使用R中的字符串向量对data.table进行子集化

在R的data.table中，如何将data.table的密钥保存到使用.SD引用的子集中？

更新data.table中列子集的类

使用索引对data.table中的行进行子集化

在data.table中的函数内部子集行

基于类型列表列中的值的子集data.table

使用.SD的data.table中的列子集的累积总和

从使用`saveRDS（）`保存的data.frame中快速加载行的子集

R：以一列中的关键字为条件的快速子集大数据表

替代R中的子集

R中的日期子集

R中的子集命令

R中的串行子集

R Shiny中的子集

R中的子集问题

TOP 榜单

文章

R中data.table中的快速子集

R中data.table中的快速子集

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何正确比较 scala.xml 节点？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

在令牌内联程序集错误之前预期为 ')'

数据表中有多个子行，asp.net核心中来自sql server的数据

VBA 自动化错误：-2147221080 (800401a8)

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何在JavaScript中获取数组的第n个元素？

检查嵌套列表中的长度是否相同

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

ES5的代理替代

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

如何监视应用程序而不是单个进程的CPU使用率？

如何检查字符串输入的格式

解决类Koin的实例时出错

如何自动选择正确的键盘布局？-仅具有一个键盘布局