使用lxml解析命名节奏的HTML？

理查德

这让我发疯了，我已经挣扎了很多小时。任何帮助将非常感激。

我正在使用PyQuery 1.2.9（在之上构建lxml）来抓取此URL。我只想获取此.linkoutlist部分中所有链接的列表。

这是我的全部要求：

response = requests.get('http://www.ncbi.nlm.nih.gov/pubmed/?term=The%20cost-effectiveness%20of%20mirtazapine%20versus%20paroxetine%20in%20treating%20people%20with%20depression%20in%20primary%20care')
doc = pq(response.content)
links = doc('#maincontent .linkoutlist a')
print links

但这返回一个空数组。如果我改用此查询：

links = doc('#maincontent .linkoutlist')

然后我得到这个HTML：

<div xmlns="http://www.w3.org/1999/xhtml" xmlns:xi="http://www.w3.org/2001/XInclude" class="linkoutlist">
   <h4>Full Text Sources</h4>
   <ul>
      <li><a title="Full text at publisher's site" href="http://meta.wkhealth.com/pt/pt-core/template-journal/lwwgateway/media/landingpage.htm?issn=0268-1315&amp;volume=19&amp;issue=3&amp;spage=125" ref="itool=Abstract&amp;PrId=3159&amp;uid=15107654&amp;db=pubmed&amp;log$=linkoutlink&amp;nlmid=8609061" target="_blank">Lippincott Williams &amp; Wilkins</a></li>
      <li><a href="http://ovidsp.ovid.com/ovidweb.cgi?T=JS&amp;PAGE=linkout&amp;SEARCH=15107654.ui" ref="itool=Abstract&amp;PrId=3682&amp;uid=15107654&amp;db=pubmed&amp;log$=linkoutlink&amp;nlmid=8609061" target="_blank">Ovid Technologies, Inc.</a></li>
   </ul>
   <h4>Other Literature Sources</h4>
   ...
</div>

因此，父选择器确实返回带有很多<a>标签的HTML 。这似乎也是有效的HTML。

更多实验表明xmlns，出于某种原因，lxml不喜欢开头div上的属性。

如何在lxml中忽略它，而像常规HTML一样解析它？

更新：正在尝试ns_clean，仍然失败：

    parser = etree.XMLParser(ns_clean=True)
    tree = etree.parse(StringIO(response.content), parser)
    sel = CSSSelector('#maincontent .rprt_all a')
    print sel(tree)

您需要处理名称空间，包括一个空的名称空间。

工作解决方案：

from pyquery import PyQuery as pq
import requests


response = requests.get('http://www.ncbi.nlm.nih.gov/pubmed/?term=The%20cost-effectiveness%20of%20mirtazapine%20versus%20paroxetine%20in%20treating%20people%20with%20depression%20in%20primary%20care')

namespaces = {'xi': 'http://www.w3.org/2001/XInclude', 'test': 'http://www.w3.org/1999/xhtml'}
links = pq('#maincontent .linkoutlist test|a', response.content, namespaces=namespaces)
for link in links:
    print link.attrib.get("title", "No title")

打印与选择器匹配的所有链接的标题：

Full text at publisher's site
No title
Free resource
Free resource
Free resource
Free resource

或者，只需将设置为parser，"html"而忽略名称空间：

links = pq('#maincontent .linkoutlist a', response.content, parser="html")
for link in links:
    print link.attrib.get("title", "No title")

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-10-27

我来说两句

0 条评论

登录后参与评论

上一篇：在MVC中加载2下拉菜单的更好方法

如何使用Python LXML重命名节点？

如何使用Java解析midi的节奏？

d3.js Sankey使用命名节点

如何使用FLWOR XQuery重命名节点元素名称？

使用 lxml 解析表格中的 HTML 数据

使用LXML解析器的HTML getnext

在python中使用lxml解析html页面

使用lxml解析Yelp-忽略html标记

使用Python Lxml解析静态html文件中的隐藏元素

我究竟做错了什么？使用lxml解析HTML

如何使用Python和lxml解析本地html文件？

解析本地HTML python（lxml）

Nokogiri-如何命名节点“ comment”？

WordPress的：重命名节的URL名称

Maya Python重命名节点

Powershell：读取/编辑命名节点

使用lxml解析xml文件

使用 lxml 和 xpath 解析

lxml无法正确解析HTML的unicode

无法通过BeautifulSoup / LXML解析HTML

用 Python 解析 HTML。请求和 LXML

通过xpath用lxml解析html的问题

python使用lxml和xpath解析html表上的特定数据

使用lxml进行HTML解析-如何在结果列表中保留空内容？

为什么多线程不能加快使用lxml解析HTML的速度？

如何使用lxml解析从html文件中打印出所有文本信息？

使用lxml xpath解析xml文件

Python-使用LXML麻烦解析XML

用python解析lxml：如何使用objectify

TOP 榜单

文章

使用lxml解析命名节奏的HTML？

使用lxml解析命名节奏的HTML？

隐藏发件人没有短信PHP

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

在浏览器中请求URL时会发生什么？

flask-admin 如何自定义删除按钮

材质UI垂直滑块。如何改变在垂直材料UI滑块导轨的厚度（反应）

用日期数据透视表和日期顺序查询

Jqgrid：多级别组摘要

java io ioexception无法解析服务器地址解析器的响应

Swift如何使用Base64Url编码JWT标头和有效负载之类的json对象

sshd AllowGroups组未授予访问权限

jQuery无限滚动固定div中的滚动

android 背部按下

Flexbox CSS 对齐属性环境惰性？

为什么随机森林中的平均降低基尼系数取决于人口规模？

ClickHouse 创建临时表

为什么PlusShare.Builder setRecipients方法不起作用？

如何在Android中识别MICR代码

PyQt4.QtCore模块无法向sip模块注册

正则表达式，用于查找所有以任何字母开头和数字开头的文件

是否可以通过编程方式对很多动画进行重新着色？

机器密钥生成