在16GB RAM计算机中读取没有语言错误的大语言语料库

凯瑟拉文·纳塔拉简

我发现Google NMT使用编解码器读取输入数据文件。

import codecs
import tensorflow as tf
with codecs.getreader("utf-8")(tf.gfile.GFile(input_file, mode="rb")) as f:
    return f.read().splitlines()

我有两个问题。

  1. 上面的内容是否支持在size more than 5 GB使用16GB RAM的个人计算机中读取庞大的数据集,而不会出现内存错误tf.gfile.GFile我非常感谢能帮助我阅读庞大的语言语料库的解决方案

没有出现内存错误

2.我已经在代码中导入了编解码器,但是为什么会出现此错误"NameError: name 'codecs' is not defined

编辑1:

对于2。

 OutOfRangeError                           Traceback (most recent call last)
    <ipython-input-7-e78786c1f151> in <module>()
          6 input_file = os.path.join(source_path)
          7 with codecs.getreader("utf-8")(tf.gfile.GFile(input_file, mode="rb")) as f:
    ----> 8     source_text = f.read().splitlines()

当操作迭代超出有效输入范围时,将引发OutOfRangeError。我怎样才能解决这个问题 ?

普拉巴夫

如果文件很大,建议逐行处理。下面的代码可以解决问题:

with open("input_file") as infile:
    for line in infile:
        do_something_with(line)

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

16GB RAM 服务器中的 MySQL 优化

如何快速传输大档案(约16GB)

比较的Ram:16GB的1600MHz DDR3与16GB的2400MHz DDR4

我有16GB RAM。我需要32GB交换空间吗?

8GB RAM系统上的16GB承诺内存

过去用于16Gb内存的计算机,现在仅适用于8Gb

获得16GB的RAM-在主板中要检查什么?

将 RAM 从 20GB(1x 4GB、1x 16GB)升级到 32GB(2x 16GB)

我怎么知道我的联想T410是否支持16GB RAM?

安装了新的16GB RAM,但是我在系统上看到15.3。为什么?

MTRR不能覆盖N3150上的所有16Gb内存

为什么我的 C: Drive 上的主分区上有 16gb 的空白卷空间?

在Tails中,关机时擦除16gb系统内存需要多长时间?

在我的AMD Windows 7计算机中安装了4-8GB GSkill DDR3 SDRAM;操作系统说有16GB可用空间

16gb 似乎不足以在 Kotlin 中解析 1gb JSON,我可以优化我的代码吗?

为什么我的 ram 使用率如此之高而没有任何运行?(30% 来自 16Gb ram)

RAM安装顺序。8GB和16GB。插槽0中应该有哪一个?

具有16GB虚拟内存并不断增长的Java程序:这有问题吗?

当我有超过16GB的可用空间时,为什么我的Mac使用450mb交换

移除16GB上限

为什么 EC2 强大的计算机可以提供与 16GB 内存笔记本电脑相近的结果

文件夹在文件浏览器中没有任何内容,但在“属性”窗口中仍显示有16GB。不确定占用了什么空间

在2011年初将13英寸Macbook Pro的RAM从4gb升级到16gb之后,为什么使用的内存几乎总是大于4GB?

我的笔记本电脑应该支持16GB的RAM,但是据报道只有8GB(但是芯片和插槽都可以工作)

电脑最大内存 16GB 或 8GB

帶有 jq 的 Bash 腳本不會從字符串中獲取日期差異,並且在 i7 16GB RAM 上運行速度很慢

Power BI处理16gb CSV文件

如何在Go中分配16GB内存?

我的计算机使用了8GB RAM中的6GB,没有证据