如何在python中删除所有unicode表示形式

Candi00

我正在尝试删除文档中所有特殊字符的表示形式，例如文档的一部分说：“ world \ u2019s”，当我将其拆分时会给出，['world', '\u2019', 's']但我只需要删除单词（unicode和's'）。
我已经删除了所有标点符号，这适用于通常在这些unicode表示形式上未显示的实际标点符号。而且我还尝试使用正则表达式来匹配以“ \”开头的所有内容，但似乎也不起作用。

合酶

import re

string = "world\u2019s"

print (re.sub(r"\b([^\s]+)\\([^\s]+)\b",r'\1',str(string.encode('ascii', 'backslashreplace'), 'ascii')))

输出：

world

您可以将其应用于整个字符串文档，应该可以使用。

import re

string = "world\u2019s h\u2018e"

print (re.sub(r"\b([^\s]+)\\([^\s]+)\b",r'\1',str(string.encode('ascii', 'backslashreplace'), 'ascii')))

输出：

world h

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-27

我来说两句

0 条评论

登录后参与评论

上一篇：Vue.js中的watcher不适用于道具价值

如何删除Python中特定字符之前的所有字符？

Redis Python-如何在python中根据特定模式删除所有键，而无需python迭代

如何删除python中特定字符之后的所有字符？

如何在python中删除所有unicode表示形式

如何在python中删除所有unicode表示形式

Android Studio Kotlin：提取为常量

IE 11中的FormData未定义

计算数据帧R中的字符串频率

如何在R中转置数据

如何使用Redux-Toolkit重置Redux Store

Excel 2016图表将增长与4个参数进行比较

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

OpenCv：改变 putText() 的位置

ActiveModelSerializer仅显示关联的ID

算术中的c ++常量类型转换

如何开始为Ubuntu开发

将加号/减号添加到jQuery菜单

去噪自动编码器和常规自动编码器有什么区别？

获取并汇总所有关联的数据

OpenGL纹理格式的颜色错误

在 React Native Expo 中使用 react-redux 更改另一个键的值

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

TreeMap中的自定义排序

Redux动作正常，但减速器无效

如何对treeView的子节点进行排序