仅具有正数和未标记数据集的二进制半监督分类

Imkhan

我的数据包含评论(保存在文件中),其中很少有被标记为肯定的。我想使用半监督和PU分类将这些注释分类为肯定和否定类。我想知道在python(scikit-learn)中是否有任何针对半监督和PU实现的公共实现?

安德烈亚斯·穆勒(Andreas Mueller)

您可以尝试训练一类SVM,看看能给您带来什么样的结果。我还没有听说过PU纸。我认为,出于所有实际目的,标记一些点然后使用半监督方法会更好。如果很难找到负点,我将尝试使用启发式方法来找到推定的负点(我认为这与PU论文中的技术类似)。您可以将未标记的与正的分类,然后仅查看那些未标记的得分高的得分,或者学习一类SVM或类似的SVM,然后在异常值中寻找负值。

如果您对实际解决任务感兴趣,那么我宁愿花时间在手动标注上,也不愿执行幻想的方法。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

二进制数据集上的特征选择(分类)

具有附加维度的二进制分类(子类)

文本二进制分类错误:logits 和标签必须具有相同的形状

具有JSON和二进制数据传递功能的Express Body Parser

将数据框从分类变量重塑为仅二进制变量

存储文本数据集以进行二进制分类

使用CNN进行二进制图像分类-选择“负”数据集的最佳做法?

建立用于LSTM二进制分类的语音数据集

二进制分类情况下数据集不平衡的问题

具有字符/字符串特征的二进制分类

使用具有单个功能的径向基内核SVM进行二进制分类

具有softmax激活的二进制分类始终输出1

R:如何将具有大量分类级别的列设为二进制?

在具有稀疏正标签的二进制分类序列问题上平衡样本

如何使用ML.Net执行具有许多功能的二进制分类

过度采样:使用SMOTE处理Python中的二进制和分类数据

分类/二进制数据之和的直方图

朴素贝叶斯分类器与二进制数据

FF神经网络和二进制分类

Keras和LSTM中的二进制分类

当源是二进制数据集时,接收器必须是二进制的

如何根据标签过滤和平衡带有二进制分类标签的窗口化 Tensorflow 数据集?

如何将原始二进制数据查看为具有给定宽度和高度的图像?

ggplot geom_vline具有二进制变量和x轴日期以及长数据格式

允许用户仅运行具有root权限/特权的特定二进制文件

仅具有2个参数的递归二进制搜索方法

Bash:具有二进制范围的循环,保持控制值二进制

二进制搜索树是否具有未显示的空子级?

熊猫进行二进制分类