我正在尝试从一组网页中检索文本,但是我想检索的某些文本未包含在任何标记中。我可以轻松地检索其余的内容,但是在每个页面上都有一段仅用双引号引起来的文本段落,而没有其他内容。目前,我可以找到它所在的元素,但是该元素中还有很多其他内容,因此是否可以指定一个xpath插入该元素并专门检索用双引号引起来的文本?
编辑:以下是我要检索的内容,即h1标记下方的两行文本。元素中还有更多,但没有任何意义。因此,我正在寻找的xpath类似于“在类元素“ widget-content”中找到文章元素内所有未封闭的文本)。
<article class="widget-content">
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<script src="/Modules/Orchard.jQuery/scripts/jquery-1.9.1.js" type="text/javascript"></script>
<h1>Placeholder title</h1>
Placeholder text Placeholder text Placeholder text Placeholder text Placeholder text Placeholder text Placeholder text Placeholder text Placeholder text Placeholder text Placeholder text Placeholder text Placeholder text <br />
<br />
Placeholder: Another placeholder <br />
<br />
问:因此,我要查找的xpath类似于“在类元素为“ widget-content”的article-element中查找任何未封闭的文本。
这将是:
//article[@class='widget-content']/text()
但这将包含大量的空文本节点(仅限空白),以避免它们尝试:
//article[@class='widget-content']/text()[normalize-space() !='']
问:以下是我想检索的内容,即h1标记下方的两行文本。
这将是(/h1/following-sibling::text()
)或全部在一起:
"//article[@class='widget-content']/h1/following-sibling::text()[normalize-space() !='']"
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句