unicode字符内可以有一个ascii控制字符吗

Rhotac Rhotac 发表于 Dev

罗塔克罗塔克

我正在解析混合有ASCII和Unicode字符的二进制数据。这是一个例子：

A .. | B .... | C ..

其中2个点代表一个Unicode字符的两个字节。

我的问题是..使用字段分隔符（|）（0x7c）解析此数据是否安全？还是有可能0x7c出现在一个unicode字节之一中？

喜欢

A. || B .... | C ..

其中第2个和第3个字节实际上是unicode字符的一部分。如果我使用|解析作为分隔符，它将产生错误的值。谢谢

尤卡·科尔佩拉（Jukka K.Korpela）

表述“ unicode字符”似乎表示“字符的UTF-16编码”（从注释中判断）。那么答案是，任何Ascii控制字符和任何Ascii字符都可能出现在此处（更确切地说，UTF-16编码数据的字节之一可能与代表Ascii代码中字符的字节重合）。通常，Ascii字符的UTF-16编码由0字节和包含Ascii代码值的字节组成。并且，例如，U + 7C7C CJK统一IDEOGRAPH-7C7C（xiān）的UTF-16编码由两个0x7C字节组成。

请注意，垂直线“ |” 在任何常规术语中，U + 007C（Ascii中为0x7C）都不是控制字符。ASCII控制字符为0x00至0x1F和0x7F。（有时将空格0x20既描述为控制字符又描述为图形字符，但这是令人困惑的，如今通常可以避免使用。）

为了获得有关解析问题的帮助，您应该更准确地指定数据格式。该格式似乎设计得很差，因为如果想法（看起来）是Ascii字符后面跟随着可变数量的UTF-16编码数据，则无法明确解析该格式。例如，在“ A .. | B .... | C ..”中，您真的不知道（没有其他规则）在这里显示为“ | B”（字节0x7C 0x42）实际上不是UTF-16数据，代表U + 7C42或U + 427C（取决于UTF-16的字节序）。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-03-6

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

unicode字符内可以有一个ascii控制字符吗

unicode字符内可以有一个ascii控制字符吗

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何检查字符串输入的格式

检查嵌套列表中的长度是否相同

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何自动选择正确的键盘布局？-仅具有一个键盘布局

如何正确比较 scala.xml 节点？

在令牌内联程序集错误之前预期为 ')'

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

解决类Koin的实例时出错

ES5的代理替代

有什么解决方案可以将android设备用作Cast Receiver？

VBA 自动化错误：-2147221080 (800401a8)

套接字无法检测到断开连接