如何使用XPath选择元素及其子元素中的所有文本

艾哈迈德

我想使用XPATH提取以下标题的文本:

<h2 id="title"><a href="https://www.aclweb.org/anthology/P17-1102"><span class="acl-fixed-case">P</span>osition<span class="acl-fixed-case">R</span>ank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents</a></h2>

如果我使用:

paper_title = response.xpath('//*[@id="title"]/a/descendant::*/text()').extract()

我会得到:

['P', 'R']

这是两个span子的内文

如果我使用:

paper_title = response.xpath('//*[@id="title"]/a/text()').extract()

我会得到:

['osition',
 'ank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents']

那是<a>排除孩子的内在文字

如何提取全文?

克休斯

这个XPath

string(//h2[@id="title"])

将返回字符串值的的h2 元件具有id的属性值"title"

PositionRank:从学术文献中提取关键词的无监督方法

按照要求。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何在C#中设置元素及其所有子元素的文本颜色和样式

Python:使用 lxml xpath 从所有 HTML 子元素文本中获取文本

如何单独升级元素及其所有子元素

从元素及其子元素中删除所有CSS属性

如何使用XPath选择所有空元素

如何在Javascript中获取元素及其子元素的所有已计算的CSS属性

XPath以选择元素中的所有href

使用 xpath 选择:( p 元素中的文本)和( img 中的属性“src”,它是 p 的子元素)

如何选择除一个及其后代之外的所有子元素?

如何查找div中的所有链接(及其所有子元素)

使用LINQ动态选择所有XML元素及其值

xpath通过包含值的父属性排除元素及其所有子元素

如何使用XPath在另一个子元素之后选择子文本

如何使用XPath选择具有四个以上子元素的tr元素?

如何在DOM元素中查找所有文本及其父级

选择元素的所有子元素

xpath 如何提取元素本身及其子元素之一?

XPath-选择具有内部文本甚至子元素文本的元素

XPATH:如何选择包含一些文本及其同级元素的元素不包含其他文本

PostgreSQL Xpath选择元素及其子属性为两列

Xpath / XSLT:如何选择没有子名称的元素的属性...?

使用 xPath 查找文本包含“en”的所有元素:

如何使用Scapy的XPath选择所有子文本,但不包括标签?

如何使用xpath选择元素

如何使用XPath选择任何深度的子元素?

如何使用xpath从具有不同html结构的多个元素中选择文本

如何使用 xpath 定位器访问特定或所有文本元素?

XPath请求选择所有“ a”元素

XSLT:生成所有子元素的XPATH