在 R 中按 ID 分类

埃利维尔森·平托

RandomForestSRC为了性能，我一直在尝试使用包在 R 中进行一些分类。

在这种特殊情况下，我有以下示例 data.frame，其中 Y 是分类因子 c("X","Y","Z")，ID 表示项目组合在同一个包中，并且它们我还有其他变量会告诉我结果是否应该是 X、Y 或 Z：

y    ID    x1    x2    x3    ...

X    01    AA    BB    CC    ...
X    01    AA    BB    DD    ...
X    01    AA    FF    EE    ...
Y    02    AA    BB    CC    ...
Y    02    AA    BB    EE    ...
Z    03    AA    FF    CC    ...
Z    03    AA    FF    EE    ...
...  ...   ...   ...   ...   ...

训练算法后，它成功地为我提供了以下结果，每个项目的准确率都很高，但没有按包裹 ID 对项目进行分组：

y    ID    x1    x2    x3    ...

Y    01    AA    BB    CC    ...
X    01    AA    BB    DD    ...
Z    01    AA    FF    EE    ...
Y    02    AA    BB    CC    ...
Y    02    AA    BB    EE    ...
Z    03    AA    FF    CC    ...
Z    03    AA    FF    EE    ...
...  ...   ...   ...   ...   ...

包裹分类规则应如下：

如果至少有一个物品被归类为 X，则整个包裹应为 X；
如果同一个包裹中只有Y和Z，则该包裹应归类为Y；
如果包裹中只有 Z 件物品，则整个包裹应归类为 Z。

因此，出于分类目的，包装上的重量应为 X > Y > Z。

我试过摆弄给算法的公式，使用以下内容：

rf <- rfsrc(y ~ ., data = model, method = "class")
rf <- rfsrc(y ~ ID %in% (x1+x2+x3+...), data = model, method = "class")
rf <- rfsrc(y ~ (x1+x2+x3+...) / ID, data = model, method = "class")

然而，似乎没有什么工作真的很好，有时会降低单个项目的准确性。我想过分层预测，使用第一个结果作为算法第二次迭代的模型，但我无法真正找到如何到达那里。

我应该放弃使用随机森林进行分类，而完全尝试其他算法吗？也许可以nnet，或者h2o为我工作？我对数据挖掘和预测算法完全陌生，所以请耐心等待。

埃利维尔森·平托

经过大量研究，我想我找到了我需要的东西。

我使用该reshape包对我的 data.frame 进行建模并将一些变量转换为行。如果其他人需要它，这些是我遵循的材料：

http://had.co.nz/reshape/introduction.pdf

https://www.r-statistics.com/2012/01/aggregation-and-restructuring-data-from-r-in-action/

在研究了这些材料并进行了一些谷歌搜索后，我想出了以下代码：

library(reshape)

aux <- melt(myData, id=c('y','ID','x1'))

myData <- as.data.frame(cast(aux, ... ~ variable+value, function(x) { length(x) != 0}))

结果是以下重塑的data.frame：

y    ID    x1    x2_BB    x2_FF    x3_CC    x3_DD    x3_EE    ...

X    01    AA    TRUE     TRUE    TRUE      TRUE     TRUE     ...
Y    02    AA    TRUE     FALSE   TRUE      FALSE    TRUE     ...
Z    03    AA    FALSE    TRUE    TRUE      FALSE    TRUE     ...
...  ...   ...   ...      ...     ...       ...      ...      ...

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。