整理大量大型压缩文件

Anush 发表于 Dev

阿努什

我有很多名为xaa.gz，xab.gz，xac.gz等的大型压缩文件。不幸的是，它们没有排序。我想做以下等效的工作。

zcat x*|sort > largefile

split -l 1000000 largefile

然后gzip分割文件，并丢弃之前制作的所有其他文件。

问题在于这将生成大量未压缩的文件，然后生成许多较小的未压缩拆分文件，然后再压缩它们。是否可以在整个过程中不做一个大文件，而在压缩过程中也可以在不压缩文件的情况下理想地保存这些文件呢？

我有8个核心，所以我也想利用它们（我没有coreutils 8.20，所以不能利用sort --parallel）。

约里克·萨尔

不是完整的代码，而是有关您可以在此处执行的操作的一些想法。

1）对输入文件进行分区以并行处理它们：

num_cores=8
i=0
while read f; do
  part_name=part$i
  set $part_name="${!part_name} $f"
  (( i=(i+1)%num_cores ))
done < <(ls x*.gz)

2）在不同的过程中对文件的某些部分进行解压缩和排序：

sort -m <(zcat $part0 | sort) <(zcat $part1 | sort) ...

3）告诉split立即压缩文件：

... | split -l 1000000 --filter='gzip > $FILE.gz'

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-03-6

我来说两句

0 条评论

登录后参与评论

上一篇：什么是编解码器（例如DivX？），它与文件格式（例如MPG）有什么区别？

快速压缩大量大文件

在Spark中处理大型压缩文件

在php中处理大型压缩文件

Azure Synapse加载：将大型压缩文件拆分为较小的压缩文件

ffmpeg 为小视频创建大型压缩文件？

从大型压缩文件流式传输JSON对象

优化我的脚本，以查找大型压缩文件

压缩文件

wc压缩文件？

正确压缩文件

在不创建临时文件的情况下更新大型压缩文件

无法翻译大型压缩文件，例如5GB和8GB

json中的压缩文件或json中的压缩文件

用grep压缩文件？

使用R压缩文件

解压缩文件

无法复制压缩文件

无法打开压缩文件

压缩文件大小的差异

如何分割压缩文件？

压缩文件前端的问题

处理HDF5文件中的大量大型2D阵列的建议（最佳做法）

压缩时，Zip不会压缩文件

压缩和解压缩文件

如何避免压缩压缩文件

解压缩/压缩文件搜索

将大量大列表写入文件

以正确的顺序整理大量文件

写入文件时如何压缩文件？

TOP 榜单

文章

整理大量大型压缩文件

整理大量大型压缩文件

隐藏发件人没有短信PHP

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

在浏览器中请求URL时会发生什么？

flask-admin 如何自定义删除按钮

材质UI垂直滑块。如何改变在垂直材料UI滑块导轨的厚度（反应）

用日期数据透视表和日期顺序查询

Jqgrid：多级别组摘要

java io ioexception无法解析服务器地址解析器的响应

Swift如何使用Base64Url编码JWT标头和有效负载之类的json对象

sshd AllowGroups组未授予访问权限

jQuery无限滚动固定div中的滚动

android 背部按下

Flexbox CSS 对齐属性环境惰性？

为什么随机森林中的平均降低基尼系数取决于人口规模？

ClickHouse 创建临时表

为什么PlusShare.Builder setRecipients方法不起作用？

如何在Android中识别MICR代码

PyQt4.QtCore模块无法向sip模块注册

正则表达式，用于查找所有以任何字母开头和数字开头的文件

是否可以通过编程方式对很多动画进行重新着色？

机器密钥生成