在gedit中使用UTF-16编码打开UTF-8文件会产生可读的中文

哈桑格

我知道这并不是真正的问题,但我真的很好奇为什么会这样。

如何重现这种现象

打开gedit并输入一些内容(我使用来自lipsum.com的Lorem Ipsum文本)。保存文件并关闭gedit。

重新打开它,然后单击“打开”,然后单击“其他文档...”。单击您刚刚制作的文件。单击“打开”之前,单击“字符编码”,然后选择“ UTF-16”。

文件打开后,编辑器中将显示一些中文,并混合了一些不可显示的随机Unicode字符。现在,这才是真正奇怪的部分开始的地方:打开Goog​​le Translate,然后粘贴中文。确保选择“中文”作为语言。

根据文本的不同,您几乎总是会在某处看到一些可以理解(甚至是普通)的英语。以我为例,我看到:“更多信息,请访问我们的网站:www.globalcouncil.org”,“这是您第一次来此领域。我们欢迎您访问我们的网站。 。” 请参阅Pastebin上的全文。

其他观察

  • 当使用freetranslation.com网站上的文本进行翻译时,其中一些文本会被颠倒过来,例如:“ image⁥macro瑡⁴hunting慭,价格是楬挠宏Ɱ挠一个常见的词组
  • 反向显示时,此文本实际上与编码为UTF-8时输入的原始文本相同。
  • 颠倒的文字似乎也实际上是倒退的。当我在文本末尾键入内容时,它会出现在开头。
  • 有些句子听起来很正常(有时很有趣),以至于这似乎不是翻译软件的怪癖,例如:“汤不能用于治疗急性或慢性阻塞性肺疾病。” 这不是我输入的原文。
  • 在LinuxQuestions上发现了这个问题,该问题通过Google Translate进行了重现。这是一些可以理解的英语:“在这里您可以找到自己喜欢的碗和碗。”

问题

为什么会这样呢?为什么生成的句子听起来如此逼真?是古怪的翻译还是翻译?(如果会说中文的人可以给我他的意见,那就太好了。)

这是我对“超级用户”的第一个问题,请不要强求我。先感谢您。

吴锡龙

作为一名讲中文的人,我可以告诉您一个事实,这些汉字都是无效的随机垃圾(对不起,揭开神秘面纱)。问题发生在这里:

现在这是真正奇怪的部分开始的地方:打开Google Translate,然后粘贴中文。确保选择“中文”作为语言

Google的中文<>英语翻译并不像看起来那样可靠。由于中文和英文的语言结构完全不同,因此Google尚未提供非常准确的中文到英文/英文到中文的翻译。举个例子。

image ⁥ macro 瑡 桴 礠 樠 with ‮ hunting⁴ 慭 and prices are 礠 楬 挠 macro Ɱ 挠One common phrase

以上所有这些中文单词甚至都没有任何意义。但是Google翻译认为您实际上在其中粘贴了一些有用的东西,因此它只会在数据库中随机连接单词。

让我们把这两个“挠“”拿出来,从长远来看,它们可能没有什么联系。

“ Flex”可以浇花“ Flex水”

而且“楬”可以是某种类型的树。因此,也许“挠楬”正在浇灌某种树木(即使我们从未像上述那样一起使用中文单词)

但是Google翻译就像“民主楬意味着灵活性”

是的,问题是Google Translate不好,仅此而已。

至于:

“有关更多信息,请访问我们的网站:www.globalcouncil.org”,“这是您第一次来此地区见我们。欢迎您访问我们的网站。”

我怀疑您不小心将这些文本与中文单词一起复制了。

对于整个倒退的话,我认为wizzwizz4已经为您提供了该解决方案

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

使写字板正确打开UTF-8或UTF-16编码的文件

如何在Perl中打开utf-16编码的XML文件?

在python中使用UTF-16编码

如果使用utf-8编码打开文件,则0x85 Windows 1252会换行

Java使用哪种编码使用UTF-8或UTF-16?

如果<meta charset =“ utf-8”>表示JavaScript使用的是utf-8编码而不是utf-16

在C ++中使用utf8库将UTF 16转换为UTF8

UTF-16编码

Python打开UTF-16文件读取每个字节

在Python中打开和读取UTF-16文件

为什么打开utf-16文件时Python不读取行尾字符?

将从 SFTP 下载的文件的编码从 UTF-16 更改为 UTF-16

在Python 2中使用通用换行符读取UTF-8文件

postgres COPY函数是否支持utf 16编码文件?

使用Python3处理UTF-8文件中的编码错误

从 hive 中使用 utf-8 字符编码选择数据

XmlWriter在C#中使用StringWriter编码UTF-8

如何使用UTF-8编码打开Java程序生成的zip文件

UTF 8文件名?

如何使用Pandas读取UTF-8文件?

读取UTF-8文件会返回意外的字符

Python 中奇怪的前导字符 utf-8/utf-16 编码

Ruby将UTF-8字符串编码为UTF-16

如何在WLATIN1编码的SAS会话中使用UTF-8编码的文件?

我可以使用UTF-8 / 16/32对任何Unicode符号进行编码吗?

如何使用具有UTF 16编码的PHP函数fopen()创建文件?

使用UTF-16LE编码和Apache Commons IO读写文本文件

ß 无法从使用 Python 的 UTF-16 编码的 XML 文件中读取

使用字节顺序掩码(BOM)在PHP中以UTF-16LE编码文件