我想使用XPATH提取以下标题的文本:
<h2 id="title"><a href="https://www.aclweb.org/anthology/P17-1102"><span class="acl-fixed-case">P</span>osition<span class="acl-fixed-case">R</span>ank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents</a></h2>
如果我使用:
paper_title = response.xpath('//*[@id="title"]/a/descendant::*/text()').extract()
我会得到:
['P', 'R']
这是两个span子的内文
如果我使用:
paper_title = response.xpath('//*[@id="title"]/a/text()').extract()
我会得到:
['osition',
'ank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents']
那是<a>
排除孩子的内在文字。
如何提取全文?
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句