在python中处理unicode字符串

山塔诺

我正在使用基于英语维基百科的快速文本预训练模型。它按预期工作...

https://github.com/shantanuo/pandas_examples/blob/master/nlp/fasttext_english.ipynb

但是，当我使用其他语言尝试相同的代码时，出现此页面上显示的错误...

https://github.com/shantanuo/pandas_examples/blob/master/nlp/fasttext_marathi.ipynb

该错误与unicode有关：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 15: invalid start byte

我尝试使用Raw Binary选项打开文件。我在load.py文件中更改了函数load_words_raw：

with open(file_path, 'rb') as f:

现在我得到了另一个错误：

ValueError：无法将字符串转换为浮点型：b'\ x00l \ x02'

我不知道该如何处理。

克里斯多夫

您应该将笔记本文件的第二行更改为：

#!wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.mr.300.vec.gz

因此，指向vec文件而不是bin文件：

#!wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.mr.300.bin.gz

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-5

我来说两句

0 条评论

登录后参与评论

上一篇：在朱莉娅的稀疏矩阵中有效地插入对角线

从Python字符串中删除零宽度的Unicode字符

在python中哈希unicode字符串

在python字符串中禁止u'prefix指示unicode'

Powershell Unicode字符串中的字符

处理Java字符串中的Unicode替代值

替换字符串中的Unicode字符

PHP字符串中的Unicode字符

在Python中遍历unicode字符串

删除字符串中的Unicode字符

在字符串中打印字符的unicode数（Python）

删除字符串Python中的Unicode代码（\ uxxx）

Python中的字符串处理

Python从字符串中删除嵌套的unicode'u'符号

Python Pandas处理字符串中的特殊字符

字符串中的Unicode字符

C ++中的Unicode字符串处理

Python Unicode字典到Twitch流中的字符串

从python unicode字符串中删除小写单词

如何使Python 3正确处理MongoDB中的unicode字符串？

将Unicode转换为Python 2中的字符串

反斜杠在Python中以Unicode字符串转发

python中的Unicode-Ascii混合字符串

Python如何解决字符串中的Unicode错误

处理双重转义的unicode字符串

在python中获取unicode字符串中的字符数

在字符串搜索中处理 Unicode

Python：迭代字符串中的unicode字符

Python 中的字符串处理

Python Unicode 字符串

TOP 榜单

文章

在python中处理unicode字符串

在python中处理unicode字符串

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID