在16GB RAM计算机中读取没有语言错误的大语言语料库

凯瑟拉文·纳塔拉简

我发现Google NMT使用编解码器读取输入数据文件。

import codecs
import tensorflow as tf
with codecs.getreader("utf-8")(tf.gfile.GFile(input_file, mode="rb")) as f:
    return f.read().splitlines()

我有两个问题。

上面的内容是否支持在size more than 5 GB使用16GB RAM的个人计算机中读取庞大的数据集，而不会出现内存错误tf.gfile.GFile？我非常感谢能帮助我阅读庞大的语言语料库的解决方案

没有出现内存错误

。2.我已经在代码中导入了编解码器，但是为什么会出现此错误"NameError: name 'codecs' is not defined？

编辑1：

对于2。

 OutOfRangeError                           Traceback (most recent call last)
    <ipython-input-7-e78786c1f151> in <module>()
          6 input_file = os.path.join(source_path)
          7 with codecs.getreader("utf-8")(tf.gfile.GFile(input_file, mode="rb")) as f:
    ----> 8     source_text = f.read().splitlines()

当操作迭代超出有效输入范围时，将引发OutOfRangeError。我怎样才能解决这个问题？

普拉巴夫

如果文件很大，建议逐行处理。下面的代码可以解决问题：

with open("input_file") as infile:
    for line in infile:
        do_something_with(line)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-29

我来说两句

0 条评论

登录后参与评论

上一篇：如果语句与collection.contains相乘

16GB RAM 服务器中的 MySQL 优化

如何快速传输大档案（约16GB）

在16GB RAM计算机中读取没有语言错误的大语言语料库

在16GB RAM计算机中读取没有语言错误的大语言语料库

Android Studio Kotlin：提取为常量

计算数据帧R中的字符串频率

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

TreeMap中的自定义排序

TYPO3：将 Formhandler 添加到新闻扩展

遍历元素数组以每X秒在浏览器上显示

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

无法连接网络并在Ubuntu 14.04中找到eth0

将辅助轴原点与主要轴对齐

我可以ping IPv6但不能ping IPv4

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

提交html表单时为空

使用C ++ 11将数组设置为零

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称

尝试在Dell XPS13 9360上安装Windows 7时出错

如何在R中转置数据

无法使用 envoy 访问 .ssh/config

未捕获的SyntaxError：带有Ajax帖子的意外令牌u