如何在 Jupyter Notebook (Python) 上使用 Xpath 获取包含指定文本的元素？

谢尔盖·谢尔盖耶夫

我需要以下任务的帮助：例如，这是 HTML 的一部分：

<ul>
  <li>Coffee, sugar bla bla bla ... milk.</li>
  <li>Tea</li>
  <li>Tea</li>
  <li>milk</li>
  <li>123   @"£ sdfa  milk</li>
  <li>Tea</li>
  <li>1 2 milk 3 5...</li>
</ul>

我需要刮除所有<li>包含该词的元素，milk而不管大小写、其他词等。

我试过：

    from lxml import html
    import requests
    page = requests.get('WEB-ADDRESS.html')
    tree = html.fromstring(page.content)
    target = tree.xpath('//li[contains(text(),"milk")]')

还试过：

   target3 = tree.xpath('//reflist[. = "milk"]')

但他们都返回空—— []

薰衣草

您的第一个解决方案确实有效。因此，您可能需要仔细检查page.content.

from lxml import html
#import requests

content = """
<div>
    <ul>
      <li>Coffee, sugar bla bla bla ... milk.</li>
      <li>Tea</li>
      <li>Tea</li>
      <li>milk</li>
      <li>123   @"£ sdfa  milk</li>
      <li>Tea</li>
      <li>1 2 milk 3 5...</li>
    </ul>
</div>
"""


tree = html.fromstring(content)

nodes = tree.xpath('//li[contains(text(), "milk")]')
for node in nodes:
    print(node.text)

Coffee, sugar bla bla bla ... milk.
milk
123   @"£ sdfa  milk
1 2 milk 3 5...

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-08-28

我来说两句

0 条评论

登录后参与评论

上一篇：console.log 以有角度的形式显示对象 Object

如何在Android设备上安装Jupyter Notebook？

如何在Jupyter Notebook中使用来自外部Python文件的代码？

如何在Jupyter Notebook上查看内置函数的文档？

Windows 10上的Jupyter Notebook Python崩溃

在Spark集群上为Jupyter Notebook指定python文件

如何在Jupyter Python Notebook中遵循DRY原理

Python-如何在Jupyter Notebook中安装pyvttbl

如何在Jupyter Notebook Python 3.6.2中关闭行号

如何在Jupyter Notebook中使用PySpark时包含外部Spark库

在Jupyter Notebook上获取JsonDecodeError

如何在Jupyter Notebook上迭代绘制图形

如何在Python包内的Jupyter Notebook中显示.gif

如何使用其他版本的Python运行Jupyter Notebook？

如何在Jupyter Python Notebook中的gmap上显示文本？

如何在Jupyter Notebook中导入python .py文件

如何在dl VM上启动和停止Jupyter Notebook

如何使用Docker映像jupyter / pyspark-notebook在jupyter-notebook上禁用密码或令牌登录

如何在Jupyter Notebook单元中刷新Python导入？

Jupyter Notebook（Python）上需要tensorflow 1.4

如何在 jupyter notebook 中使用 TensorFlow？我已经通过 python 3.5 pip 安装了 TensorFlow

如何使用 jupyter notebook 修复 python 中的“语法错误”？

如何使用 Jupyter Notebook 在 Python 中更慢地抓取网站？

如何在 Anaconda 中的 Jupyter notebook 中使用 Python 连接 Cassandra？

如何在 vscode jupyter notebook 中使用创建的 python 虚拟环境

如何在 Windows 10 上安装 Jupyter Lab/Notebook？

如何在 Jupyter Notebook 上安装 playwright？

如何在 python jupyter notebook 中运行 bigquery SQL 查询

如何在 jupyter notebook 上調用帶有解析參數的 python 腳本

如何在jupyter notebook python上制作散点图

TOP 榜单

文章

如何在 Jupyter Notebook (Python) 上使用 Xpath 获取包含指定文本的元素？

如何在 Jupyter Notebook (Python) 上使用 Xpath 获取包含指定文本的元素？

构建类似于Jarvis的本地语言应用程序

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

SQL Server中的非确定性数据类型

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

Swift 2.1-对单个单元格使用UITableView

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

HttpClient中的角度变化检测

如何了解DFT结果

错误：找不到存根。请确保已调用spring-cloud-contract：convert

Embers js中的更改侦听器上的组合框

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何避免每次重新编译所有文件？

Java中的循环开关案例

ng升级性能注意事项

Swift中的指针替代品？

如何使用geoChoroplethChart和dc.js在Mapchart的路径上添加标签或自定义值？

使用分隔符将成对相邻的数组元素相互连接

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

ggplot：对齐多个分面图-所有大小不同的分面

完全禁用暂停（在内核级别？-必须与使用的DE和登录状态无关！）