我有一个文本Aur\xc3\xa9lien
,想用python 3.8解码。
我尝试了以下
import codecs
s = "Aur\xc3\xa9lien"
codecs.decode(s, "urf-8")
codecs.decode(bytes(s), "urf-8")
codecs.decode(bytes(s, "utf-8"), "utf-8")
但是他们都没有给出正确的结果Aurélien
。
如何正确做?
并且没有基本,通用的简单权威页面描述python的所有这些编码吗?
首先找到字符串的编码,然后对其进行解码...为此,您需要通过在原始字符串的前面添加字母“ b”来制作字节字符串。
尝试这个:
import chardet
s = "Aur\xc3\xa9lien"
bs = b"Aur\xc3\xa9lien"
encoding = chardet.detect(bs)["encoding"]
str = s.encode(encoding).decode("utf-8")
print(str)
如果您正在从文件中读取文本,则可以使用magic
lib来检测编码,请参见此处:https : //stackoverflow.com/a/16203777/1544937
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句