对于XGBoost二进制分类问题,选择auc / error / logloss作为eval_metric有什么影响?

大卫293836

选择auc,error或logloss作为XGBoost的eval_metric如何影响其性能?假设数据不平衡。它如何影响准确性,召回率和准确性?

他们是摩西

在不同的评估矩阵之间进行选择不会直接影响性能。评估矩阵是那里的用户评价他的模型。准确度是另一种评估方法,precision-recall也是如此另一方面,目标函数 影响所有这些评估矩阵

例如,如果一个分类器的标签1的概率为0.7,标签0的概率为0.3,而另一个分类器的标签1的概率为0.9,而标签0的概率为0.1,则两者之间的误差将不同。他们将正确分类标签。

就个人而言,大多数时候,我使用roc auc评估二进制分类,如果我想更深入地研究,我会看一看混淆矩阵。

在处理不平衡数据时,需要知道多少不平衡,是30%-70%的比率还是0.1%-99.9%的比率?我读过一篇文章,内容涉及精度召回如何更好地评估高度不平衡的数据。

这里有一些更多的阅读材料:

处理高度不平衡的等级以及为什么不应该使用接收器工作特性曲线(ROC曲线),并且在高度不平衡的情况下应首选“精确度/召回率”曲线

具有不平衡数据集的ROC和精确召回

评估指标可以影响模型准确性(或其他不同评估矩阵)的唯一方法是使用early_stoppingearly_stopping根据您的评估指标来决定何时停止训练额外的助推器。early_stopping旨在防止过度拟合

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

在具有稀疏正标签的二进制分类序列问题上平衡样本

分类到二进制 - 我做错了什么?

什么是多标签二进制分类?

具有附加维度的二进制分类(子类)

将 XGBoost eval_metric 交叉验证计算与权重匹配

插入并选择UUID作为二进制文件(16)

二进制搜索-为什么选择ceil?

二进制搜索...此代码有问题

为二进制分类任务嵌入分类数据的正确方法是什么

使用卷积神经网络作为二进制分类器

为什么我在Keras二进制分类模型中获得零精度?

具有字符/字符串特征的二进制分类

使用具有单个功能的径向基内核SVM进行二进制分类

是否有方便的方法将文件分类为“二进制”或“文本”?

具有softmax激活的二进制分类始终输出1

R:如何将具有大量分类级别的列设为二进制?

TensorFlow 图像二进制分类器在训练后无法有效工作

如何使用ML.Net执行具有许多功能的二进制分类

文本二进制分类错误:logits 和标签必须具有相同的形状

根据现有日期列中的年份添加二进制分类列

g ++为什么不必链接iostream二进制文件,但对于pthread呢?

为什么对于Linux仅存在Mono和MonoDevelop的非常老的二进制文件?

二进制大小对性能的影响

选择所有十进制数字的二进制邻居

将十进制转换为二进制有问题

二进制搜索程序没有按预期工作。有什么问题?

我的二进制搜索树的方法插入有什么问题?

我的二进制插入代码有什么问题?

无法弄清楚我的二进制加法算法有什么问题