将特有格式的.txt文件转换为XML

法制

我有几个大型的纯文本文件，这些文件都是我在博士学位期间制作的供个人使用的“词汇表”。它们的格式无用，如下所示：

%%% <entry i>

    Blah Blah Blah, see also > <entry j>


%%% <entry i+1>

等（请注意交叉引用。）

在当前状态下，这些文件不易使用（例如，使用LaTeX创建显示版本，或将条目的子集放在网站上）；它们基本上只能在文本编辑器中浏览。似乎将所有内容都转换为XML可能是增加灵活性和可用性的最佳方法，那么什么是最佳方法？

桑多·冈贝（SándorGombai）

这可能是python中此类转换器的基础：

#!/usr/bin/python

import fileinput
import re

entryre = re.compile( "^%%% <([^>]+)>")
seealsore = re.compile( "see also > <([^>]+)>")

def pnode(nodename, nodeblock):
    print "<" + nodename + ">"
    print nodeblock
    print "</" + nodename + ">"


block = ""
entry = ""
for line in fileinput.input():
    match = re.match( entryre, line)
    if match:
        if entry:
            pnode(entry, block)
            block = ""
            entry = ""
        entry = match.group(1)
    else:
        match = re.match( seealsore, line)
        line = re.sub( seealsore, r'<seealso>\1</seealso>', line)
        block += line

pnode(entry, block)

它读取任何文件（建议使用stdin）并写入stdout。只需将输出包装在xml头和尾之间即可。如果条目包含空格，则应小心。另外，如果块包含类似标签的（“”）子字符串，则需要进行其他转换。

但是，如果您只想浏览条目，建议使用简单的html。定义列表或表都可以很好地为您服务。转换代码只需要进行很小的更改。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-03-26

我来说两句

0 条评论

登录后参与评论

将 .xml 文件直接转换为 .txt 文件...无需解析

如何使用python将.txt文件转换为xml文件？

如何将txt文件转换为xml？

将特有格式的.txt文件转换为XML

将特有格式的.txt文件转换为XML

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

SQL Server中的非确定性数据类型

Swift 2.1-对单个单元格使用UITableView

如何避免每次重新编译所有文件？

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

应用发明者仅从列表中选择一个随机项一次

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

HttpClient中的角度变化检测

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何了解DFT结果

Camunda-根据分配的组过滤任务列表

错误：找不到存根。请确保已调用spring-cloud-contract：convert

为什么此后台线程中未处理的异常不会终止我的进程？

构建类似于Jarvis的本地语言应用程序

使用分隔符将成对相邻的数组元素相互连接

您如何通过 Nativescript 中的 Fetch 发出发布请求？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

使用React / Javascript在Wordpress API中通过ID获取选择的多个帖子/页面

使用 text() 獲取特定文本節點的 XPath