使用XPATH读取棘手的XML

Nikhil 发表于 Dev

尼基尔

我是Python和XPATH的初学者，需要使用XPATH读取具有非统一节点（类似于下面提到的节点）的XML。下面还显示了要写入文件的输出格式。该代码使用lxml库。

请帮助我建立正确的XPATH。

源XML

<Classes>
    <German>
        <Student>
            <Span><a href="">John</a></Span>
        </Student>
        <Student>
            <Span>Adam</Span>
        </Student>
    </German>
    <English>
        <Student>
            <Span>Mary</Span>
        </Student>
    </English>
    <French>
        <Student>
            <Span><a href="">Anil</a></Span>
        </Student>
        <Student>
            <Span><a href="">Jack</a></Span>
        </Student>
    </French>
    <Spanish>
        <Student>
            <Span>Mary</Span>
        </Student>
        <Student>
            <Span>Jack</Span>
        </Student>
    </Spanish>
</Classes>

预期产量

German
    John
    Adam
English
    Mary
French
    Anil
    Jack
Spanish
    Mary
    Jack

谢谢，Nikhil

安德烈斯·佩雷斯·阿尔贝拉·H。

此代码将帮助：

from lxml import html

xml_content = """<Classes>
    <German>
        <Student>
            <Span><a href="">John</a></Span>
        </Student>
        <Student>
            <Span>Adam</Span>
        </Student>
    </German>
    <English>
        <Student>
            <Span>Mary</Span>
        </Student>
    </English>
    <French>
        <Student>
            <Span><a href="">Anil</a></Span>
        </Student>
        <Student>
            <Span><a href="">Jack</a></Span>
        </Student>
    </French>
    <Spanish>
        <Student>
            <Span>Mary</Span>
        </Student>
        <Student>
            <Span>Jack</Span>
        </Student>
    </Spanish>
</Classes>"""

tree = html.fromstring(xml_content)
classes = tree.xpath('//classes/*')
for language_class in classes:
    print language_class.tag.capitalize()
    for student in language_class.xpath('.//student/span//text()'):
        print "    {}".format(student)

输出：

German
    John
    Adam
English
    Mary
French
    Anil
    Jack
Spanish
    Mary
    Jack

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-04-7

我来说两句

0 条评论

登录后参与评论

上一篇：如何使用SQL Server查询获取产品明智库存

在Python中使用棘手的文件读取CSV行

使用ConstraintLayout简单而又棘手的布局

使用Python登录棘手的网站

使用python登录到棘手的站点

使用xpath查询Java读取xml

使用XPath查询读取xml中的节点

如何在文档的棘手部分中创建Xpath（对我而言），以便在VBA中与Selenium Basic一起使用

如何使用youtube-dl下载棘手的字幕？

使用CI活动记录进行棘手的SQL查询

在 Flask 中使用 LOGIN_USER() 变得棘手

如何使用HTML :: TreeBuilder解析棘手的HTML文件

使用“曲线”绘制函数：棘手的表达式？

使用 spark 在 Delta 表中进行棘手的 upsert

棘手的numpy索引

相当棘手的cmd

cppcheck的棘手情况

模板引擎很棘手

棘手的元素集合

使用xpath和DOM解析器读取xml

如何在Java中使用XPath读取XML

使用StAX和XPath读取巨大的XML文件

使用XPATH Java从XML字符串读取值

使用 node.js xpath xmldom 读取 XML 文件

读取“棘手”文件时出错，没有名为“数据”的模块

棘手的 apache 重写配置

JSON数据的棘手转换

棘手的gorm级联删除

DataFrame 中的“棘手”分组

棘手的 MYSQL ORDER BY 子句

TOP 榜单

文章

使用XPATH读取棘手的XML

使用XPATH读取棘手的XML

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

SQL Server中的非确定性数据类型

Swift 2.1-对单个单元格使用UITableView

如何避免每次重新编译所有文件？

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

应用发明者仅从列表中选择一个随机项一次

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

HttpClient中的角度变化检测

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何了解DFT结果

Camunda-根据分配的组过滤任务列表

错误：找不到存根。请确保已调用spring-cloud-contract：convert

为什么此后台线程中未处理的异常不会终止我的进程？

构建类似于Jarvis的本地语言应用程序

使用分隔符将成对相邻的数组元素相互连接

您如何通过 Nativescript 中的 Fetch 发出发布请求？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

使用React / Javascript在Wordpress API中通过ID获取选择的多个帖子/页面

使用 text() 獲取特定文本節點的 XPath