在gedit中使用UTF-16编码打开UTF-8文件会产生可读的中文

H.A. Sanger 发表于 Dev

24

哈桑格

我知道这并不是真正的问题，但我真的很好奇为什么会这样。

如何重现这种现象

打开gedit并输入一些内容（我使用来自lipsum.com的Lorem Ipsum文本）。保存文件并关闭gedit。

重新打开它，然后单击“打开”，然后单击“其他文档...”。单击您刚刚制作的文件。单击“打开”之前，单击“字符编码”，然后选择“ UTF-16”。

文件打开后，编辑器中将显示一些中文，并混合了一些不可显示的随机Unicode字符。现在，这才是真正奇怪的部分开始的地方：打开Google Translate，然后粘贴中文。确保选择“中文”作为语言。

根据文本的不同，您几乎总是会在某处看到一些可以理解（甚至是普通）的英语。以我为例，我看到：“更多信息，请访问我们的网站：www.globalcouncil.org”，“这是您第一次来此领域。我们欢迎您访问我们的网站。。” 请参阅Pastebin上的全文。

其他观察

当使用freetranslation.com网站上的文本进行翻译时，其中一些文本会被颠倒过来，例如：“ image⁥macro瑡⁴hunting慭，价格是楬挠宏Ɱ挠一个常见的词组
反向显示时，此文本实际上与编码为UTF-8时输入的原始文本相同。
颠倒的文字似乎也实际上是倒退的。当我在文本末尾键入内容时，它会出现在开头。
有些句子听起来很正常（有时很有趣），以至于这似乎不是翻译软件的怪癖，例如：“汤不能用于治疗急性或慢性阻塞性肺疾病。” 这不是我输入的原文。
我在LinuxQuestions上发现了这个问题，该问题通过Google Translate进行了重现。这是一些可以理解的英语：“在这里您可以找到自己喜欢的碗和碗。”

问题

为什么会这样呢？为什么生成的句子听起来如此逼真？是古怪的翻译还是翻译？（如果会说中文的人可以给我他的意见，那就太好了。）

这是我对“超级用户”的第一个问题，请不要强求我。先感谢您。

吴锡龙

作为一名讲中文的人，我可以告诉您一个事实，这些汉字都是无效的随机垃圾（对不起，揭开神秘面纱）。问题发生在这里：

现在这是真正奇怪的部分开始的地方：打开Google Translate，然后粘贴中文。确保选择“中文”作为语言

Google的中文<>英语翻译并不像看起来那样可靠。由于中文和英文的语言结构完全不同，因此Google尚未提供非常准确的中文到英文/英文到中文的翻译。举个例子。

image ⁥ macro 瑡桴礠樠 with ‮ hunting⁴ 慭 and prices are 礠楬挠 macro Ɱ 挠One common phrase

以上所有这些中文单词甚至都没有任何意义。但是Google翻译认为您实际上在其中粘贴了一些有用的东西，因此它只会在数据库中随机连接单词。

让我们把这两个“挠“”拿出来，从长远来看，它们可能没有什么联系。

“ Flex”可以浇花“ Flex水”

而且“楬”可以是某种类型的树。因此，也许“挠楬”正在浇灌某种树木（即使我们从未像上述那样一起使用中文单词）

但是Google翻译就像“民主楬意味着灵活性”

是的，问题是Google Translate不好，仅此而已。

至于：

“有关更多信息，请访问我们的网站：www.globalcouncil.org”，“这是您第一次来此地区见我们。欢迎您访问我们的网站。”

我怀疑您不小心将这些文本与中文单词一起复制了。

对于整个倒退的话，我认为wizzwizz4已经为您提供了该解决方案

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-03-31

我来说两句

0 条评论

登录后参与评论

上一篇：更改“ PATH”环境变量的正确方法是什么？

相关文章

使写字板正确打开UTF-8或UTF-16编码的文件

如何在Perl中打开utf-16编码的XML文件？

在python中使用UTF-16编码

如果使用utf-8编码打开文件，则0x85 Windows 1252会换行

Java使用哪种编码使用UTF-8或UTF-16？

如果<meta charset =“ utf-8”>表示JavaScript使用的是utf-8编码而不是utf-16

在C ++中使用utf8库将UTF 16转换为UTF8

UTF-16编码

Python打开UTF-16文件读取每个字节

在Python中打开和读取UTF-16文件

为什么打开utf-16文件时Python不读取行尾字符？

将从 SFTP 下载的文件的编码从 UTF-16 更改为 UTF-16

在Python 2中使用通用换行符读取UTF-8文件

postgres COPY函数是否支持utf 16编码文件？

使用Python3处理UTF-8文件中的编码错误

从 hive 中使用 utf-8 字符编码选择数据

XmlWriter在C＃中使用StringWriter编码UTF-8

如何使用UTF-8编码打开Java程序生成的zip文件

UTF 8文件名？

如何使用Pandas读取UTF-8文件？

读取UTF-8文件会返回意外的字符

Python 中奇怪的前导字符 utf-8/utf-16 编码

Ruby将UTF-8字符串编码为UTF-16

如何在WLATIN1编码的SAS会话中使用UTF-8编码的文件？

我可以使用UTF-8 / 16/32对任何Unicode符号进行编码吗？

如何使用具有UTF 16编码的PHP函数fopen（）创建文件？

使用UTF-16LE编码和Apache Commons IO读写文本文件

ß 无法从使用 Python 的 UTF-16 编码的 XML 文件中读取

使用字节顺序掩码（BOM）在PHP中以UTF-16LE编码文件

TOP 榜单

文章

热门标签

归档