作为编程初学者,我在通过 Scikit learn 的机器学习实验对文本进行分类时遇到了一些问题。我使用 10 折交叉验证,因此在训练和测试数据中没有划分。
我的问题始于特征提取模块。这是有错误的代码:
vec = DictVectorizer()
X = vec.fit_transform(instances).toarray()
最后一行给出了以下错误:
类型错误:float() 参数必须是字符串或数字,而不是“dict”
Instances 是一个特征向量字典列表,每个文档有一个字典。实例列表开头的示例(您可以看到第一个文档的字典的一部分)。
是的,问题在于您的嵌套字典特征向量。拆分它们并使它们成为独立的特征。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句