使用sklearn.datasets.load_files导入的数据集标签

gal007 发表于 Dev

34

gal007

我想知道如何将SVN分类器产生的标签与数据集中的标签进行匹配。然后我意识到问题从一开始就开始了：加载数据集时，我得到了一个具有以下属性的数据集：

.data = the news text
.target_names = label used in the dataset e.g. ["positive", "negative"]
.target = A matrix with a number for each news with a label.

但是我想知道不同数据集（具有相同标签但新闻不同）中target_names的顺序是否不同，以及.data元素的顺序是否会影响这一点。

有什么方法可以轻松知道.target矩阵中的数字标签吗？（我的意思是，0或1在这样的矩阵中代表什么）

最好，

rvf

条目i中的相应标签.target可用.target_names[i]。在您的示例中：.target_names[1]为“负”。

只要标签完全相同，跨不同数据集的目标名称的顺序将相同。这是因为sklearn.datasets.load_files()如我们在源代码（v.20.x）中看到的那样，从排序后的文件夹名称创建标签：

[...]
folders = [f for f in sorted(listdir(container_path))
           if isdir(join(container_path, f))]

if categories is not None:
    folders = [f for f in folders if f in categories]

for label, folder in enumerate(folders):
    target_names.append(folder)
[...]

我仍然建议始终从target_names当前数据集中检索标签，以确保安全（实现可能会随时间变化等）。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-4

我来说两句

0 条评论

登录后参与评论

上一篇：位置固定的奇怪行为

相关文章

如何使用sklearn.datasets.load_files加载数据百分比

如何通过使用sklearn.datasets.make_classification生成线性可分离数据集？

如何使用sklearn.datasets.make_classification生成给定范围内的合成数据？

sklearn.datasets.samples_generator导入make_blobs需要哪个pip安装包？

AttributeError：模块“ sklearn.datasets”没有属性“ load_titanic”

如何使用torchvision.datasets.Imagefolder将数据分为训练集和测试集？

尝试在计算机上使用“ torchvision.datasets”下载CIFAR10数据集

使用tensorflow_datasets.load（TF 2.1）拆分训练数据以进行训练和验证

使用sklearn预测多标签数据

PyTorch - 如何将自定义数据集保存到磁盘以与 torchvision.datasets 一起使用？

PyTorch-使用torchvision.datasets.ImageFolder的标签不正确

sklearn.datasets.make_classification 无法生成平衡类

没有名为“sklearn.datasets.samples_generator”的模块

如何使用tensorflow_datasets（tfds）来实现和理解预处理和数据扩充？

导入keras.datasets不起作用

Python中的datasets.load_iris（）

pyinstaller无法使用sklearn编译导入的模块

无法使用sklearn加载'mnist-original'数据集

使用python的sklearn模块和自定义数据集

使用pytorch和sklearn对MNIST数据集进行交叉验证

使用sklearn的Python MNIST数据集，选择特定数字

使用sklearn的KFold分离熊猫数据框

使用sklearn解码熊猫数据帧

无法使用scikit-learn 0.19.1导入sklearn.qda和sklearn.lda

具有sklearn.datasets的PyMC3贝叶斯线性回归预测

sklearn.datasets.make_blobs 中的“shuffle”参数有什么作用？

PyTorch：使用torchvision.datasets.ImageFolder和DataLoader进行测试

将Tensorflow Datasets API与Keras结合使用时的问题

LogisticRegression：未知标签类型：在python中使用sklearn的“ continuous”

TOP 榜单

文章

热门标签

归档