我正在尝试快速索引大量html文件,以便使用Apache Lucene Solr进行一次一次性的信息检索实验。我使用的是发布了最新版本(solr-4.9.0/example/solr
)的Solr实例示例,本着一种快速而又肮脏的解决方案的精神,我只是使用curl提交了文档:
curl http://localhost:8983/solr/update/extract?literal.id=001 -F [email protected]
在建立索引期间查看Solr面板中的日志时,我看到许多错误的形式:
org.apache.solr.common.SolrException: ERROR: [doc=BLOG06-20060103-014-0011844415] multiple values encountered for non multiValued field keywords: [hair care, shampoo, hair styles, hair styles, ...]
看起来,执行关键字提取的组件正在提取多个值时,也许它应该只是由空格分隔的单词列表。我需要采取任何措施来强制执行此操作,还是看起来像某种错误?
原来的解决方案是那样简单,确保关键字字段中schema.xml
已经multiValued="true"
指定。然后,我不得不在其他两个领域中这样做。我曾经愚蠢地假设将架构设置为与演示实例中的默认文档解析器匹配。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句