我正在尝试删除文档中所有特殊字符的表示形式,例如文档的一部分说:“ world \ u2019s”,当我将其拆分时会给出,['world', '\u2019', 's']
但我只需要删除单词(unicode和's')。
我已经删除了所有标点符号,这适用于通常在这些unicode表示形式上未显示的实际标点符号。而且我还尝试使用正则表达式来匹配以“ \”开头的所有内容,但似乎也不起作用。
import re
string = "world\u2019s"
print (re.sub(r"\b([^\s]+)\\([^\s]+)\b",r'\1',str(string.encode('ascii', 'backslashreplace'), 'ascii')))
输出:
world
您可以将其应用于整个字符串文档,应该可以使用。
import re
string = "world\u2019s h\u2018e"
print (re.sub(r"\b([^\s]+)\\([^\s]+)\b",r'\1',str(string.encode('ascii', 'backslashreplace'), 'ascii')))
输出:
world h
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句