基于公共列合并两个文件；为文件 2 中不存在的变体添加 0，并在存在的变体中保留原始值

kllrdr 发表于 Dev

克利尔

我想合并两个共享一些公共数据的文件。文件 1 包含的不仅仅是文件 2。我想按照文件 1 的顺序基于它们的共享列 (3) 合并文件，并且当文件 2 中不存在变量时，我想将 0 添加到第 5 列 (AN1)，如果存在，添加 AN1 的原始值（0 或 1）。

我的文件如下所示：文件 1

CHR BP  SNP CM  base
20  61098   rs6078030   -0.00024510777  1
20  61795   rs4814683   0   1
20  63231   rs6076506   0.0005026053    1
20  63244   rs6139074   0.00050714752   1

档案 2

CHR BP  SNP CM  AN1
20 9836704 rs221007 0 1
20 9817032 rs221011 0 0
20 9764069 rs2206484 0 0
20 9639395 rs4816159 0 1

我想根据第 3 列（SNP）匹配它们。我现在想保留所有其他列。

我想要的输出看起来像这样（当 rsX 不存在时为 0，或者当 AN1 的原始值为 0 时）：

文件 3

CHR BP  SNP CM  base AN1
20  61098   rs6078030   -0.00024510777  1   1
20  61795   rs4814683   0   1   0
20  63231   rs6076506   0.0005026053    1   0
20  63244   rs6139074   0.00050714752   1   1

我需要根据新的条件修改这段代码：

awk 'NR==FNR{ snp[$3]; next }
{ $6=($3 in snp)?(FNR==1?"AN1":"1"):"0" }1' file2 file1

在这里，当文件 1 中存在 rsX 时，我打印 1。我想打印 AN1 的原始值（0 或 1）

αғsнιη

awk 'NR==FNR{ snp[$3]=$NF; next }
{ $6=($3 in snp)?(FNR==1?"AN1":snp[$3]):"0" }1' file2 file1

事情在awk：

NR：目前看到的输入记录总数。
FNR: 当前输入文件中的输入记录编号，下一个输入文件将重置为 1。

因此，NR==FNR只有第一个输入文件的条件始终为真，NR==FNR { ... }当它为真时将执行以下块，并且我们确实将最后一列值保存$NF到一个以列为键的awk数组中。snp$3

next语句导致awk跳过执行其余代码并重新开始，如果NF==FNR仍然为真，它将重复处理该块，直到读取第一个输入文件的所有记录/行。

然后在下一个块中，我们$6使用以下条件添加/更新列的值：

如果 file1 中的 column#3 设置在snpfile2 的数组中，则执行以下操作：
- 如果是第一行，则将其值设置为 AN1
- 如果不是第一行，则将其值设置为从snp[$3]数组中读取的值。
否则设置为0.

毕竟用于打印结果的awk idom1。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-06-7

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

基于公共列合并两个文件；为文件 2 中不存在的变体添加 0，并在存在的变体中保留原始值

基于公共列合并两个文件；为文件 2 中不存在的变体添加 0，并在存在的变体中保留原始值

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID