Python网站抓取工具UnicodeEncodeError

MooingRawr

我正在将Requests和BeautifulSoup与Python 3.4配合使用，以从可能包含或不包含日语或其他特殊字符的网站上抓取信息。

def startThisPage(url):
    r = requests.get(str(url))
    r.encoding="utf8"
    print(r.content.decode('utf8'))
    soup = BeautifulSoup(r.content,'html.parser')
    print(soup.h2.string)

h2包含以下内容：“ Fate / kaleid班轮Prisma☆Ilya Zwei！” 而且我很确定这颗星是现在给我带来麻烦的原因。

正在向我抛出的错误代码：

UnicodeEncodeError: 'charmap' codec can't encode character '\u2606' in position 25: character maps to <undefined>

该页面使用utf8编码，因此我尝试使用utf8编码和解码使用r.content接收的字节字符串。我还尝试过首先使用unicode_escape进行解码，以为这是因为double \，但事实并非如此。有任何想法吗？

杰夫斯

soup.h2.string是Unicode字符串。控制台字符编码（例如cp437）不能表示导致错误的某些Unicode字符（☆ -U + 2606 WHITE STAR）。要解决此问题，请参阅我对“ Python，Unicode和Windows控制台”的回答。

尝试写入文件时，我仍然遇到相同的错误。

默认情况下，文件（使用创建的文件open()）使用locale.getpreferredencoding(False)诸如cp1252之类的文件。改用支持完整Unicode范围的显式字符编码：

import io

with io.open('title.txt', 'w', encoding='utf-8') as file:
    file.write(soup.h2.string)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-04-3

我来说两句

0 条评论

登录后参与评论

上一篇：为什么在GetCurrent之前调用IEnumerator.MoveNext？

网站抓取：通过Python抓取多个网站

抓取工具无法从网站提取标题

无法使用python抓取网站

Python 抓取网站加载 JS

Python，从 javascript 网站抓取数据

使用 python 抓取网站 - BeautifulSoup

用于受密码保护的网站的nodejs Web抓取工具

网站抓取工具再上一个台阶

当网站阻止不抓取内容时，如何使用Python抓取？

使用python抓取库推荐来抓取银行网站

网页抓取工具中的Python KeyError

Python Web Scraping - 如何抓取此类网站？

如何在Python中抓取JavaScript网站？

使用登录信息通过python抓取网站

USPTO网站抓取的Python发布请求

使用 python 从 HTML 网站抓取股票

使用Python请求抓取ajax网站

用 Python 从网站抓取 zip 文件

使用Python登录网站和网页抓取

使用Python抓取包含PowerBI图的网站

使用Python从网站抓取和排序日期

使用Python从.ASPX网站URL抓取数据

使用python从.aspx网站进行网页抓取

通过登录网站进行python网络抓取

无法抓取网址不变的网站页面-python

通过抓取网站获取 GPS 位置 | Python

我无法从该网站抓取项目。Python

Python beautifulsoup，抓取网站中的表格

网站用python抓取javascript元素

TOP 榜单

文章

Python网站抓取工具UnicodeEncodeError

Python网站抓取工具UnicodeEncodeError

IE 11中的FormData未定义

如何一次从多个文本框中获取值？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

OpenCv：改变 putText() 的位置

Redux动作正常，但减速器无效

如何从JavaScript中的MP3文件读取元数据属性？

如何使用Redux-Toolkit重置Redux Store

将加号/减号添加到jQuery菜单

OpenGL纹理格式的颜色错误

获取并汇总所有关联的数据

超过时间限制错误C ++

ActiveModelSerializer仅显示关联的ID

在交互式Python Shell中获得最后结果

如何开始为Ubuntu开发

去噪自动编码器和常规自动编码器有什么区别？

Excel 2016图表将增长与4个参数进行比较

算术中的c ++常量类型转换

使用因子时如何在y轴上的ggplot中插入count或％

TreeMap中的自定义排序

如何在R中转置数据

在 React Native Expo 中使用 react-redux 更改另一个键的值