我正在进行多类别分类,以便根据客户的购买行为和人口统计将其分为3个不同的类别。我无法完全公开数据集,但通常它包含大约300个要素和50000行。我尝试了以下方法,但无法达到50%以上的精度:
还有什么我可以尝试提高准确性的(准确度是指f分数,精度和召回率)。
任何帮助将不胜感激。
尝试调整以下参数
这是在进行最大投票或预测平均值之前要构建的树数。树的数量越多,性能越好,但是代码却变慢。您应该选择处理器可以处理的尽可能高的价值,因为这会使您的预测更强大,更稳定。由于数据量较大,因此每次迭代都将花费更多时间,但是请尝试这样做。
这些是随机森林允许在单个树中尝试的最大功能数。Python中有多个可用选项来分配最大功能。其中很少有:
自动/无:这将简单地采用所有
在每棵树上有意义的功能,这里我们对单个树没有任何限制。
sqrt:此选项将以单个运行中要素总数的平方根为单位。例如,如果变量总数为100,则在单个树中只能容纳10个变量。“ log2”是max_features的另一种相似类型的选项。
0.2:此选项允许随机森林在每次运行中获取20%的变量。我们可以以“ 0.x”格式分配和赋值,其中我们希望考虑x%的特征。
叶子是决策树的末端节点。较小的叶子使模型更易于捕获火车数据中的噪声。您可以从一些最小值开始,例如75,然后逐渐增加它。看看您的精度达到哪个值。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句