如何从目录中的文件中提取特定信息？

昌达7

我有大约 50 个文件，它们以以下格式命名：ERR*.log（即 ERR23432.log、ERR12356.log 等等...）。我想从每个文件中提取特定信息（值）。在每个文件中，行末尾都有值：final pair1 : Total reads after merging results from multiple database和final pair2 : Total reads after merging results from multiple databases。您可以在附件的第 62 行和第 63 行中看到这些行。现在，我想要一个脚本来提取这些值并添加它们以获得每个文件的单个值。然后，它会给出一个带有提取信息的输出文件，其中第一列是没有扩展名的文件名（即附加示例中的 ERR45666），第二列是附加值。任何人都可以帮我吗？

钢刀

使用 GNU awk：

gawk '
  BEGIN {print "SampleID","Read_counts"}
  BEGINFILE {sum = 0} 
  /final pair[12] : Total reads after merging results from multiple database/ {sum += $NF}
  ENDFILE {print substr(FILENAME,1,length(FILENAME)-4), sum}
' *.log

使用标准 (POSIX) awk，您可以轻松伪造BEGINFILEusing，FNR==1但ENDFILE模式更难；在这种情况下，我建议使用一个数组作为总和，以当前文件名为键，并在END

awk '
  BEGIN {print "SampleID","Read_counts"}
  FNR==1 {k = substr(FILENAME,1,length(FILENAME)-4)}
  /final pair[12] : Total reads after merging results from multiple database/ {sum[k] += $NF}
  END {for(k in sum) print k, sum[k]}
' *.log

请注意，使用这种方法，不能保证输出顺序与文件名的 glob 扩展顺序相同*.log。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-07-2

我来说两句

0 条评论

登录后参与评论

上一篇：Tensorflow FailedPreconditionError：尝试使用未初始化的值 beta1_power

TOP 榜单

文章

如何从目录中的文件中提取特定信息？

如何从目录中的文件中提取特定信息？

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID