更改文本文件时出现UnicodeDecodeError

Sahand 发表于 Dev

萨汉德

我正在编写一个接受文本文件并生成另一个文本文件的程序，其中：1.瑞典字母的格式正确。2.删除所有非字母的单词。3.所有大写字母均已转换为小写字母。

这是我的代码：

import string

infile = open("unigram.wfreq","r")
outfile = open("bigram.txt","w")

line = "Start"
while line != "":
    line = infile.readline()
    wordandcount = line.split()
    word = wordandcount[0]
    ##Fix å ä ö.
    ## å == √• ä == √§ ö == √∂
    if "√•" in word or "√§" in word or "√∂" in word:
        word = word.replace("√•","å")
        word = word.replace("√§","ä")
        word = word.replace("√∂","ö")
    if word.isalpha():
        word = word.lower()
        outfile.write(word+"\n")
    print(line)

这是我的unigram.wordfreq文件的示例：

gruppselektion 4
lating 1
Morsing 2
varuhusen 7
FULLT 8
latino 3
mammutsl√§tten 2
f√∂gl√∂mma 1
varuhuset 47
livsnjutningen 1
nedtoning 1

运行文件时，出现以下错误：

Traceback (most recent call last):
  File "formater.py", line 13, in <module>
    line = infile.readline()
  File "/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/codecs.py", line 321, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 2732-2733: invalid continuation byte

如果查看终端输出的末尾，则会看到以下内容：

Omgångsstarten 1

nationssplittring 1

Handtvätten 1

Three 47

domherre 1

http://www.dryden.se 1

Getryggarna 1

mineraloljor 21

如果我在unigram.wordfreq文件中找到此段，则希望在Mineraloljor之后看到产生错误的单词（对吗？），但是我看到了：

Getryggarna 1
mineraloljor 21
MAYHEM 1
avv√§njer 1
tilltrasslad 1
EUROPEISKT 1

紧随其后的mineraloljor是MAYHEM。我不明白为什么这个词会引起错误，这没什么不同！

如何解决此错误并继续格式化整个文件？

萨汉德

因此，我找到了解决此问题的简单方法。我打开了带有崇高文字2的wfreq文件，可以在其中使用utf-8编码保存它。这样就完全解决了瑞典字母的问题。我也将扩展名更改为.txt。之后，我再次运行python代码（更改了文件名并删除了部分内容），并且运行良好。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-04-8

我来说两句

0 条评论

登录后参与评论

上一篇：c＃从服务器ping TCP客户端

更改文本文件时出现UnicodeDecodeError

更改文本文件时出现UnicodeDecodeError

构建类似于Jarvis的本地语言应用程序

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

SQL Server中的非确定性数据类型

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

Swift 2.1-对单个单元格使用UITableView

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

HttpClient中的角度变化检测

如何了解DFT结果

错误：找不到存根。请确保已调用spring-cloud-contract：convert

Embers js中的更改侦听器上的组合框

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何避免每次重新编译所有文件？

Java中的循环开关案例

ng升级性能注意事项

Swift中的指针替代品？

如何使用geoChoroplethChart和dc.js在Mapchart的路径上添加标签或自定义值？

使用分隔符将成对相邻的数组元素相互连接

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

ggplot：对齐多个分面图-所有大小不同的分面

完全禁用暂停（在内核级别？-必须与使用的DE和登录状态无关！）