如何在尝试与python中的正则表达式匹配时应付变音符号

Alex 发表于 Dev

亚历克斯

尝试将正则表达式与Unicode HTML转义符用于变音符号：

#!/usr/bin/python
# -*- coding: utf-8 -*-
import re
htmlstring=u'''/">čćđš</a>.../">España</a>'''

print re.findall( r'/">(.*?)</a', htmlstring, re.U )

产生：

[u'\u010d\u0107\u0111\u0161', u'Espa\xf1a']

有什么帮助吗？

πόδαςὠκύς

这似乎是一个编码问题。您的代码可以正常工作。您是否期望有所不同？前缀u为unicode文字的字符串。开头的字符\u是unicode字符，后跟四个十六进制数字，而开头的字符\x是unicode字符，后跟只有两个十六进制数字。如果打印出结果（而不是查看其__repr__方法），则会看到收到的结果似乎是您正在寻找的：

results = [u'\u010d\u0107\u0111\u0161', u'Espa\xf1a']
for result in results:
    print result

čćđš
España

在您的代码中（即在列表中），您将看到以下unicode文字的表示形式：

for result in results:
    print result.__repr__()

u'\u010d\u0107\u0111\u0161'        # what shows up in your list
u'Espa\xf1a'

顺便说一句，看来您正在尝试使用正则表达式解析html。您应该尝试BeautifulSoup或类似的方法。这将使您免于日后的头疼。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-03-24

我来说两句

0 条评论

登录后参与评论

重音字符的具体Javascript正则表达式（变音符号）

正则表达式以匹配符号：！$％^＆*（）_ + |〜-=`{} []：“;'<>？，。/

如何在尝试与python中的正则表达式匹配时应付变音符号

如何在尝试与python中的正则表达式匹配时应付变音符号

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID