从包含500000个文件的目录中创建许多tar文件

fabian789

我有一个包含约500k文件的目录，并想将它们切成ttar文件。

把正式，让我们叫的文件file_0, ..., file_{N-1}，其中N围绕500K。我想创建t每个包含T=N/t文件的tar文件，其中第i个tar文件包含

file_(i*N), ..., file_((i+1)*N - 1),    i in {0, ..., t-1}

什么是有效的方法？我打算编写一个Python脚本，该脚本仅循环遍历N文件并将它们划分为t文件夹，然后tar在每个文件夹中调用，但这感觉不是很理想。我在服务器上有很多核心，觉得应该并行发生。

洛索（A. Loiseau）

您可以使用pythonconcurrent库，该库旨在处理所有或某些线程之间的请求队列，直到所有作业完全执行后才占用队列。

生成文件列表的大列表，例如 [ [f0..f0-1], [fn..f2n-1]..]
使用ThreadPoolExecutor清单吃您的计算机拥有的所有许多线程的列表。看起来可能像这样：

import os
import sys
from concurrent.futures import ThreadPoolExecutor
import subprocess
import itertools
import math


def main(p, num_tar_files):
    files = list(split_files_in(p, num_tar_files))
    tar_up = tar_up_fn(p)
    with ThreadPoolExecutor(len(files)) as executor:
        archives = list(executor.map(tar_up, itertools.count(), files))
        print("\n {} archives generated".format(len(archives)))


def split_files_in(p, num_slices):
    files = sorted(os.listdir(p))
    N = len(files)
    T = int(math.ceil(N / num_slices))  # means last .tar might contain <T files
    for i in range(0, N, T):
        yield files[i:i+T]


def tar_up_fn(p):
    def tar_up(i, files):
        _, dir_name = os.path.split(p)
        tar_file_name = "{}_{:05d}.tar".format(dir_name, i)
        print('Tarring {}'.format(tar_file_name))
        subprocess.call(["tar", "-cf", tar_file_name] + files, cwd=p)
        return tar_file_name
    return tar_up


if __name__ == '__main__':
    main(sys.argv[1], int(sys.argv[2]))

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-03-6

我来说两句

0 条评论

登录后参与评论

上一篇：输入流I / O上的EBADF（错误文件号）

在子目录中创建一个包含以 C 开头的文件的 tar.gz 文件

当文件存储在不同目录中时，创建不包含父目录的tar归档文件

如何创建包含目录中所有文件的tar文件

创建不包含父目录的tar归档文件

docker build挂在包含许多文件的目录中

从包含500000个文件的目录中创建许多tar文件

从包含500000个文件的目录中创建许多tar文件

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何检查字符串输入的格式

检查嵌套列表中的长度是否相同

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何自动选择正确的键盘布局？-仅具有一个键盘布局

如何正确比较 scala.xml 节点？

在令牌内联程序集错误之前预期为 ')'

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

解决类Koin的实例时出错

ES5的代理替代

有什么解决方案可以将android设备用作Cast Receiver？

VBA 自动化错误：-2147221080 (800401a8)

套接字无法检测到断开连接