python 3，unicode转换，两个\ u0000作为一个字符

维克多·梅兹林（Victor Mezrin）

我的python3脚本通过管道从c ++程序接收字符串。通过Unicode代码点编码的字符串。我需要正确解码。

例如，考虑包含西里尔符号的字符串： 'тест test'

尝试使用python3：对该字符串进行编码print('тест test'.encode())。我们有b'\xd1\x82\xd0\xb5\xd1\x81\xd1\x82 test'

C ++程序将此字符串编码为： b'\u00D1\u0082\u00D0\u00B5\u00D1\u0081\u00D1\u0082 test'

编码的字符串看起来非常相似-python3使用\x（2位）和c ++程序使用\u（4位）。但我不知道如何转换b'\u00D1\u0082\u00D0\u00B5\u00D1\u0081\u00D1\u0082 test'为'тест test'。主要问题-python3被认为b'\u00D1\u0082\u00D0\u00B5\u00D1\u0081\u00D1\u0082'是8个字符的字符串，但它仅包含4个字符

马克·托洛宁

如果您从C ++收到的字符串在Python中是以下内容：

s = b'\u00D1\u0082\u00D0\u00B5\u00D1\u0081\u00D1\u0082 test'

然后，它将对其进行解码：

result = s.decode('unicode-escape').encode('latin1').decode('utf8')
print(result)

输出：

тест test

第一阶段将接收到的字节字符串转换为Unicode字符串：

>>> s1 = s.decode('unicode-escape')
>>> s1
'Ñ\x82ÐµÑ\x81Ñ\x82 test'

不幸的是，Unicode代码点实际上是UTF-8字节值。的latin1编码是1：第一256个Unicode码点1映射，与该编解码器转换的编码点返回至字节值中的字节字符串，以便编码：

>>> s2 = s1.encode('latin1')
>>> s2
b'\xd1\x82\xd0\xb5\xd1\x81\xd1\x82 test'

现在，可以将字节字符串解码为正确的Unicode字符串：

>>> s3 = s2.decode('utf8')
>>> s3
'тест test'

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-03-30

我来说两句

0 条评论

登录后参与评论

上一篇：如何通过Sass中的嵌套将其他信息添加到属性选择器？

python 3，unicode转换，两个\ u0000作为一个字符

python 3，unicode转换，两个\ u0000作为一个字符

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用