使用sklearn.datasets.load_files导入的数据集标签

gal007

我想知道如何将SVN分类器产生的标签与数据集中的标签进行匹配。然后我意识到问题从一开始就开始了:加载数据集时,我得到了一个具有以下属性的数据集:

.data = the news text
.target_names = label used in the dataset e.g. ["positive", "negative"]
.target = A matrix with a number for each news with a label.

但是我想知道不同数据集(具有相同标签但新闻不同)中target_names的顺序是否不同,以及.data元素的顺序是否会影响这一点。

有什么方法可以轻松知道.target矩阵中的数字标签吗?(我的意思是,0或1在这样的矩阵中代表什么)

最好,

rvf

条目i的相应标签.target可用.target_names[i]在您的示例中:.target_names[1]为“负”。

只要标签完全相同,跨不同数据集的目标名称的顺序将相同。这是因为sklearn.datasets.load_files()如我们在源代码(v.20.x)中看到的那样,从排序后的文件夹名称创建标签

[...]
folders = [f for f in sorted(listdir(container_path))
           if isdir(join(container_path, f))]

if categories is not None:
    folders = [f for f in folders if f in categories]

for label, folder in enumerate(folders):
    target_names.append(folder)
[...]

我仍然建议始终从target_names当前数据集中检索标签,以确保安全(实现可能会随时间变化等)。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何使用sklearn.datasets.load_files加载数据百分比

如何通过使用sklearn.datasets.make_classification生成线性可分离数据集?

如何使用sklearn.datasets.make_classification生成给定范围内的合成数据?

sklearn.datasets.samples_generator导入make_blobs需要哪个pip安装包?

AttributeError:模块“ sklearn.datasets”没有属性“ load_titanic”

如何使用torchvision.datasets.Imagefolder将数据分为训练集和测试集?

尝试在计算机上使用“ torchvision.datasets”下载CIFAR10数据集

使用tensorflow_datasets.load(TF 2.1)拆分训练数据以进行训练和验证

使用sklearn预测多标签数据

PyTorch - 如何将自定义数据集保存到磁盘以与 torchvision.datasets 一起使用?

PyTorch-使用torchvision.datasets.ImageFolder的标签不正确

sklearn.datasets.make_classification 无法生成平衡类

没有名为“sklearn.datasets.samples_generator”的模块

如何使用tensorflow_datasets(tfds)来实现和理解预处理和数据扩充?

导入keras.datasets不起作用

Python中的datasets.load_iris()

pyinstaller无法使用sklearn编译导入的模块

无法使用sklearn加载'mnist-original'数据集

使用python的sklearn模块和自定义数据集

使用pytorch和sklearn对MNIST数据集进行交叉验证

使用sklearn的Python MNIST数据集,选择特定数字

使用sklearn的KFold分离熊猫数据框

使用sklearn解码熊猫数据帧

无法使用scikit-learn 0.19.1导入sklearn.qda和sklearn.lda

具有sklearn.datasets的PyMC3贝叶斯线性回归预测

sklearn.datasets.make_blobs 中的“shuffle”参数有什么作用?

PyTorch:使用torchvision.datasets.ImageFolder和DataLoader进行测试

将Tensorflow Datasets API与Keras结合使用时的问题

LogisticRegression:未知标签类型:在python中使用sklearn的“ continuous”