并行读取压缩文件的内容而无需提取

用户名

我有以下zip存档结构:

$ unzip -l Undetermined_S0_L004_R1_001_fastqc.zip 
Archive:  Undetermined_S0_L004_R1_001_fastqc.zip
  Length     Date   Time    Name
 --------    ----   ----    ----
        0  10-10-14 14:44   Undetermined_S0_L004_R1_001_fastqc/
        0  10-10-14 14:44   Undetermined_S0_L004_R1_001_fastqc/Icons/
        0  10-10-14 14:44   Undetermined_S0_L004_R1_001_fastqc/Images/
     1197  10-10-14 14:44   Undetermined_S0_L004_R1_001_fastqc/Icons/fastqc_icon.png
     1450  10-10-14 14:44   Undetermined_S0_L004_R1_001_fastqc/Icons/warning.png
     1561  10-10-14 14:44   Undetermined_S0_L004_R1_001_fastqc/Icons/error.png
     1715  10-10-14 14:44   Undetermined_S0_L004_R1_001_fastqc/Icons/tick.png
      782  10-10-14 14:44   Undetermined_S0_L004_R1_001_fastqc/summary.txt
     9095  10-10-14 14:44   Undetermined_S0_L004_R1_001_fastqc/Images/per_base_quality.png
    14381  10-10-14 14:44   Undetermined_S0_L004_R1_001_fastqc/Images/per_tile_quality.png
    23205  10-10-14 14:44   Undetermined_S0_L004_R1_001_fastqc/Images/per_sequence_quality.png
    30978  10-10-14 14:44   Undetermined_S0_L004_R1_001_fastqc/Images/per_base_sequence_content.png
    31152  10-10-14 14:44   Undetermined_S0_L004_R1_001_fastqc/Images/per_sequence_gc_content.png
     7861  10-10-14 14:44   Undetermined_S0_L004_R1_001_fastqc/Images/per_base_n_content.png
    18356  10-10-14 14:44   Undetermined_S0_L004_R1_001_fastqc/Images/sequence_length_distribution.png
    23040  10-10-14 14:44   Undetermined_S0_L004_R1_001_fastqc/Images/duplication_levels.png
     9096  10-10-14 14:44   Undetermined_S0_L004_R1_001_fastqc/Images/adapter_content.png
    58683  10-10-14 14:44   Undetermined_S0_L004_R1_001_fastqc/Images/kmer_profiles.png
   355919  10-10-14 14:44   Undetermined_S0_L004_R1_001_fastqc/fastqc_report.html
   301092  10-10-14 14:44   Undetermined_S0_L004_R1_001_fastqc/fastqc_data.txt
    10117  10-10-14 14:44   Undetermined_S0_L004_R1_001_fastqc/fastqc.fo
 --------                   -------
   899680                   21 files

怎么可能使用fastqc_data.txtcrimson并行,因为此刻我得到以下错误:

find `pwd`/*_fastqc.zip -type f | parallel -j 3 unzip -c {} {}/fastqc_data.txt | crimson fastqc {} | less

Usage: crimson fastqc [OPTIONS] INPUT [OUTPUT]

Error: Invalid value for "input": Path "{}" does not exist.
吉勒斯“别再邪恶了”

您有一个由四个命令组成的管道:

  • find,其中列出了zip文件。
  • parallel,该调用unzip将在每个zip文件中提取一个文件。假设该文件{}已替换为zip文件的路径,则您尝试home/user977828/stuff/Undetermined_S0_L004_R1_001_fastqc.zip/fastqc_data.txt从存档中提取文件(如果当前目录为/home/user977828/stuff)。
  • crimson,它接收标准输入提取的文件的混乱,并且被调用的论点fastqc{}
  • less

parallel仅替换{}其参数。它对管道的其他部分无能为力。如果要分别crimson在每个fastqc_data.txt文件上调用,则需要将管道从unzip传递crimson为作为的参数parallel

find *_fastqc.zip -type f | sed 's/\.zip$//' |
parallel -j 3 'unzip -c {}.zip {}/fastqc_data.txt | crimson fastqc /dev/stdin' |
less

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

解压缩文件并将内容存储到字符串中,而无需写入文件

压缩文件夹及其所有内容,而无需在Python中保留目录结构

从Tika提取文本内容而无需指定文件头

读取包含键值对的文件的内容,而无需常规解析

从 RAR 压缩文件中提取文件

HDFS中的压缩文件提取

无需解压缩即可访问压缩文件

从STDIN读取数据时压缩文件

读取Snappy压缩文件时出错

无法从网址读取压缩文件

将许多压缩文件夹的内容提取到一个目录中

如何查看压缩文件的内容

搜索压缩文件并列出内容

如何在不将所有内容读取到内存的情况下上传压缩文件

修改.zip文件中包含的MS Word文件的内容,而无需解压缩它?

读取zip存档中的文件,而无需解压缩存档

读取zip或jar文件,而无需先将其解压缩

jszip中的压缩文件大于未压缩的内容

读取顺序文件-压缩文件与未压缩文件

android从zip文件解压缩文件夹并从该文件夹读取内容

使用SevenZip提取zip文件中的压缩文件

从图像文件中提取感兴趣区域,而无需读取整个图像

预览.7z内容和子文件夹而无需提取

是否可以递归列出具有7个zip的zip文件内容而无需提取

C#并行读取对列表的访问而无需复制

从C#的zip文件中读取二进制文件,而无需将其解压缩

如何从 SFTP 读取 CSV 文件并使用 CSVHelper 解析内容而无需在本地保存 CSV

在JavaScript中使用JSZIP提取压缩文件

压缩文件一次,提取两次