Weka StringToWordVector 属性被省略

莎拉·克索

我正在与 Weka 合作。我的问题是,使用 StringToWordVector 后省略了某些属性。所以这是我的代码:

这是使用任何过滤器之前的 ARFF 文件:

@relation QueryResult

@attribute class {Qualität,Bord,Kite,Harness}
@attribute text {evo,foil,end,fin,edg}

@data
Qualität,evo
Bord,foil
Kite,end
Harness,fin
Qualität,edg 

这是我的Java代码:

 Instances train = new Instances(loadInstancesForWeka("root","",sqlCommand));
 train.setClassIndex(train.numAttributes() - 2);
 System.out.println(train);

 NominalToString filter1 = new NominalToString();
 filter1.setInputFormat(train);
 train = Filter.useFilter(train, filter1);
 System.out.println("\nSelect nach NominaltoString \n"+train); 

 //filter
 StringToWordVector filter = new StringToWordVector(); 
 filter.setInputFormat(train);
 train = Filter.useFilter(train, filter);

使用 Vector 后,它看起来像这样:

@relation 'QueryResult-weka.filters.unsupervised.attribute.NominalToString-Clast-weka.filters.unsupervised.attribute.StringToWordVector-R2-W1000-prune-rate-1.0-N0-stemmerweka.core.stemmers.NullStemmer-stopwords-handlerweka.core.stopwords.Null-M1-tokenizerweka.core.tokenizers.WordTokenizer -delimiters \" \\r\\n\\t.,;:\\\'\\\"()?!\"'

@attribute class {Qualität,Bord,Kite,Harness}
@attribute edg numeric
@attribute evo numeric
@attribute foil numeric
@attribute end numeric
@attribute fin numeric

@data
{2 1}
{0 Bord,3 1}
{0 Kite,4 1}
{0 Harness,5 1}
{1 1} 

那么为什么省略了属性“foil,end,fin”呢?感谢您的帮助。

nekomatic

您的输出中没有遗漏任何属性。输出采用稀疏 ARFF 格式

稀疏 ARFF 文件与 ARFF 文件非常相似,但没有明确表示值为 0 的数据。...

每个实例都用花括号括起来,每个条目的格式为:
[index] [space] [value]whereindex是属性索引(从 0 开始)。

因此,对于您示例中的第三个实例,

{0 Kite,4 1}

表示此实例的属性 0 是Kite,属性 4(即“结束”)是1,其他属性是0

StringToWordVector产生稀疏输出是有意义的,因为它创建了许多新属性,其中大多数对于每个实例都是 0。如果您需要非稀疏版本,您可以使用weka.filters.unsupervised.instance.SparseToNonSparse.

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

Weka API:使用 StringToWordVector 创建 TDM

Java Weka按属性拆分实例

如何在Weka中更改max属性?

weka中的字符串数组属性

从Weka PCA中提取完整的属性名称

删除weka实例的特定属性(列)

为什么在Weka中使用“ weka.filters.supervised.attribute.AttributeSelection”会删除“ @@ class @@”属性

在Weka Java API中创建字符串属性

删除名义属性=值的实例(Weka GUI)

告诉Weka ARFF文件中要预测哪些属性?

Weka:具有字符串属性的Apriori arff文件

在 Weka(Java) 中随机采样属性子集

只有一个排位属性,却选了两个?weka 中的 InfoGain Ranker

给定属性索引,WEKA生成的模型似乎无法预测类和分布

Weka 离散属性,其中一个值是迄今为止最常见的

使用 J48 解释 x 级别中感兴趣的划分属性的结果 (WEKA)

合并具有不同属性集的两组Weka实例

无法在artff文件weka中使用字符串属性并建立分类器

如何使用带有信息增益和随机属性选择的j48 weka进行分类?

如何判断 Weka 的 OneR 分类器对提供的数据集使用哪个属性?

在Weka中工作时,最后一个属性数据类型是否需要标称?

打字稿:省略嵌套属性

用Lodash省略嵌套属性

扩展类时省略属性

使用来自模型向量(属性很少)的数据,而无需在 JAVA 的 WEKA API 中制作 ARFF 文件

XmlNode.InnerXml属性-省略xmlns属性

WEKA回归模型

Java的API WEKA - StratifiedRemoveFolds

Weka CSVSaver索引问题