解决文本规范化任务的Python方法

Lingxi 发表于 Dev

Lingxi

基本上，我有一个Hive脚本文件，我需要从中提取所有已创建表的名称。例如，从内容

...
create table Sales ...
...
create external table Persons ...
...

Sales并Persons应将其提取。为此，我的基本想法是：

搜索关键短语create table和create external table，
提取下一个标记，该标记应为表名称。

但是，输入可能不规范。例如，

制表符/换行符可以与空格一起用作令牌定界符
令牌之间可能有多个连续的定界符
混合使用大小写字母，例如 create TABLE

因此，我正在考虑在应用基本算法之前先将输入规范化为规范形式。然后，我做了一些努力，提出了以下建议

' '.join(input.split()).lower()

作为Python的新手，我想知道这是解决问题的Pythonic方式，还是一开始就有缺陷？有没有一种简单的方法可以以流方式执行此操作，即避免立即将整个输入加载到内存中？

编剧

就像一些评论所说，正则表达式是一种获取所需内容的简洁明了的方法。如果您不介意获得小写结果，则此方法应该可以工作：

import re
my_str = """
...
create table Sales ...
create TabLE  
 test
create external table Persons ...
...
"""
pattern = r"table\s+(\w+)\b"
items = re.findall(pattern, my_str.lower())
print items

它捕获“ table”之后的下一个单词（随后至少一个空格/换行符）。

要获取表名称的原始大小写：

for x, item in enumerate(items):
    i = my_str.lower().index(item)
    items[x] = my_str[i:i+len(item)]
print items

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-28

我来说两句

0 条评论

登录后参与评论

上一篇：批量归一化：固定样本还是按维度划分的不同样本？

python pandas规范化

Java库，用于文本规范化

PHP清理或规范化html文本

bigquery中的规范化（静态）：如何解决我的代码以获得规范化的数字？

规范化这些表的更好方法？

如何更改规范化方法

Python JSON规范化API请求

Python中的规范化互相关

Matplotlib（Python）规范化数据

规范化列表中的名称（python）

Python 字典非规范化列表

Python中的规范化如何执行？

在Python中规范化数组

python中嵌套字典的规范化

在 processStrategy 或 idAttribute 方法中判断模式是规范化还是非规范化的方法

规范化Unicode

应用规范化

表的规范化

规范化数据

规范化理解

Python规范化失败的数字列表/熊猫逐行规范化

oracle是否以特定的规范化格式存储unicode文本？

自定义语音：“规范化文本为空”

Regex.Replace以取消识别/规范化列文本

Java Node规范化方法有什么作用？

按列规范化：data.table方法

Python 3清理并规范化URL列表

用Python规范化两个XML文件

TOP 榜单

文章

解决文本规范化任务的Python方法

解决文本规范化任务的Python方法

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

SQL Server中的非确定性数据类型

Swift 2.1-对单个单元格使用UITableView

如何避免每次重新编译所有文件？

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

应用发明者仅从列表中选择一个随机项一次

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

HttpClient中的角度变化检测

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何了解DFT结果

Camunda-根据分配的组过滤任务列表

错误：找不到存根。请确保已调用spring-cloud-contract：convert

为什么此后台线程中未处理的异常不会终止我的进程？

构建类似于Jarvis的本地语言应用程序

使用分隔符将成对相邻的数组元素相互连接

您如何通过 Nativescript 中的 Fetch 发出发布请求？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

使用React / Javascript在Wordpress API中通过ID获取选择的多个帖子/页面

使用 text() 獲取特定文本節點的 XPath