如何在外壳中合并具有不同行数的两个文件？

Dadong Zhang

我有这样的文件1：

CHR                     SNP     TEST   A1   A2                 GENO   O(HET)   E(HET)            P 
   0         AFFX-SNP-000541      ALL    0    0                0/0/0      nan      nan            1
   0         AFFX-SNP-000541      AFF    0    0                0/0/0      nan      nan           NA
   0         AFFX-SNP-000541    UNAFF    0    0                0/0/0      nan      nan           NA
   0         AFFX-SNP-002255      ALL    0    0                0/0/0      nan      nan            1
   0         AFFX-SNP-002255      AFF    0    0                0/0/0      nan      nan           NA
   0         AFFX-SNP-002255    UNAFF    0    0                0/0/0      nan      nan           NA
   1                 rs12103      ALL    C    T           55/250/317   0.4019   0.4113       0.5596
   1                 rs12103      AFF    C    T                0/0/0      nan      nan           NA
   1                 rs12103    UNAFF    C    T                0/0/0      nan      nan           NA
   1         rs12103_1247494      ALL    C    T           55/250/321   0.3994   0.4097       0.5581
   1         rs12103_1247494      AFF    C    T                0/0/0      nan      nan           NA
   1         rs12103_1247494    UNAFF    C    T                0/0/0      nan      nan           NA

和file2一样：

CHR                     SNP   A1   A2          MAF  NCHROBS
   0         AFFX-SNP-000541    0    0           NA        0
   0         AFFX-SNP-002255    0    0           NA        0
   1                 rs12103    C    T       0.2894     1244
   1         rs12103_1247494    C    T       0.2875     1252

我想基于SNP名称和TEST == ALL将file2与file1合并，并将CHR，SNP，P和MAF保留在输出file3中。有人知道在终端（Unix）Shell中实现此目标的最佳方法吗？

期望的输出将是：

  CHR                     SNP  MAF        P
   0         AFFX-SNP-000541   NA         1
   0         AFFX-SNP-002255   NA         1
   1                 rs12103   0.2894     0.5596
   1         rs12103_1247494   0.2875     0.5581

JPG格式

在这个答案的帮助下

awk 'FNR==NR && FNR>1 {a[$2] = $5; next}
     FNR > 1 && ($2 in a) && $3 == "ALL" {
         print $1 "    " $2 "    "  a[$2] "    "  $9
     }' file2 file1

要获得标题，只需将其添加到脚本的开头：

 BEGIN{print "CHR SNP MAF P"}

解释：

首先，将两个文件传递给awk时，将一个接一个地处理它们。这里有两个重要的变量：NR是awk命令开头FNR的行号，以及是当前文件开头的行号。也就是说，当第一文件进行处理（这里file2的），NR并且FNR具有相同的值，这是该行的当前处理的值。但是当awk传递到第二个文件时，FNR被重置为1，因此NR与FNR不再相同。因此，该测试FNR==NR是了解所处理文件是否为第一个文件的技巧。

因此，让我们看一下代码。条件FNR==NR && FNR>1测试我们是否正在处理第一个文件而不是第一行。如果是这样，我们将第五列（MAF）的值存储在由第二个（SNP）索引的数组中，然后该next语句说传递给下一行。

当awk处理第二个文件（即file1）时，第一个测试为false，因此awk尝试第二个测试：FNR > 1 && ($2 in a) && $3 == "ALL"，即：文件的第一行+表中的第二列值（SNP）不存在a+表中的第三列值（TEST）是"ALL"。如果是这种情况，则将打印列1（CHR）和两（SNP），使用来MAF从数组中获取值a[$2]，然后打印列九（P）。

BEGIN{...}在开头添加一条语句会添加一条仅在处理第一行之前运行的命令。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-03-5

我来说两句

0 条评论

登录后参与评论

上一篇：Javascript过滤数组中的对象并返回数组中对象的属性

TOP 榜单

文章

如何在外壳中合并具有不同行数的两个文件？

如何在外壳中合并具有不同行数的两个文件？

构建类似于Jarvis的本地语言应用程序

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

SQL Server中的非确定性数据类型

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

错误：找不到存根。请确保已调用spring-cloud-contract：convert

如何了解DFT结果

ng升级性能注意事项

Embers js中的更改侦听器上的组合框

Swift 2.1-对单个单元格使用UITableView

Java中的循环开关案例

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

如何使用geoChoroplethChart和dc.js在Mapchart的路径上添加标签或自定义值？

ggplot：对齐多个分面图-所有大小不同的分面

如何避免每次重新编译所有文件？

Swift中的指针替代品？

完全禁用暂停（在内核级别？-必须与使用的DE和登录状态无关！）

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

使用分隔符将成对相邻的数组元素相互连接

如何开始为Ubuntu开发

Blazor：如何将事件传递给通用组件中的onClick函数