100+ GB tar.gz 文件无法正确提取

阿迪亚·拉达克里希南

我已经使用Download Accelerator Plus在 tar.gz 中下载了一个 120 GB 的数据集,并使用以下命令将其解压缩:

tar -xvzf train_val2018.tar.gz

提取后的数据集应包含略多于 8,142 个文件夹和 461,939 个图像文件。

当我打开提取的文件夹时,它确实包含数据集的一部分。但是,其中很大一部分丢失了——它只包含 3,542 个文件夹和 179,689 个文件。

使用文件资源管理器或内置的文件提取器 GUI 在 Ubuntu 上提取它只会更糟。我也在 Windows 上尝试过各种应用程序,如 WinZip、WinRAR 和 7Zip。这些都不起作用,但它们的问题是它们在处理如此大的数据集时存在内存问题。

文件会不会损坏?该文件的大小与他们在数据集网站上提到的大小相同,我已经使用 DAP 下载了几个更大的文件,而且我从未遇到过损坏问题。出于这个原因,我想知道内置提取器是否存在一些限制或其他问题。

我指的数据集是iNaturalist 2018 Contest Dataset

原子X84

是的,当然可以。如果您阅读他们有检查步骤:

Running md5sum train_val2018.tar.gz should produce b1c6952ce38f31868cc50ea72d066cc3

如果您不想手动比较 md5sum,您可以创建一个包含以下内容的文件 md5sum-db(名称可以随意):

b1c6952ce38f31868cc50ea72d066cc3 train_val2018.tar.gz

输入压缩数据库所在的文件夹并运行:

md5sum -c md5sum-db

如果哈希检查匹配,您将收到以下输出:

 train_val2018.tar.gz: OK

别的

train_val2018.tar.gz: FAILED
md5sum: WARNING: 1 computed checksum did NOT match

检查 gz 文件的另一种方法是使用测试它:

gunzip -t file.tar.gz

注意:此方法不能确保存档中包含的数据的完整性。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

TOP 榜单

热门标签

归档