如何使用AWK将某些列从一个CSV文件提取到另一个？

野牛-Ex1

我有一个非常大的CSV日志文件，其中包含以下字段：

aaa=somedata1,bbb=somedata2,ccc=somedata3,eee=somedata5,hhh=somedata8
aaa=somedata1,ddd=somedata4,fff=somedata6,hhh=somedata8
aaa=somedata1,bbb=somedata2,hhh=somedata8,ggg=somedata9,jjj=somedata11

此文件的问题在于，当没有值时，生成设备甚至不包含“ fieldname =“，因此，由于缺少字段，CSV看起来很混乱（因此，每次字段丢失时，其余字段当前字段将被拖到CSV的左侧）。

我的想法是仅使用AWK提取某些相关的列，而且我需要将其输出到新的CSV中。

例如，在上面的示例中，我想提取包括字段“ aaa”和“ hhh”的所有列，以使新的CSV看起来像这样：

aaa=somedata1,hhh=somedata8
aaa=somedata1,hhh=somedata8
aaa=somedata1,hhh=somedata8

但是，我有两个问题：

我不知道如何在AWK中查找几种条件（我什至尝试将我需要的字段/关键字的名称写到TXT文件中，并在AWK中读取它，但我做不到）。
每次我尝试打印结果列时，新的CSV仅打印一个巨型列，而我似乎找不到一种打印列分隔的方法。

感谢任何帮助！

-编辑1-

是的，我尝试使用一些单独的AWK命令，如下所示：

awk '{for (i=1;i<=NF;i++) if ($i ~ /aaa/) { print $i}}' > aaa.csv
awk '{for (i=1;i<=NF;i++) if ($i ~ /hhh/) { print $i}}' > hhh.csv

然后尝试使用（当然，我总共有10个我有兴趣提取的不同列，但是出于简洁起见，我在示例中只添加了2个）：

paste -d "," aaa.csv hhh.csv > Allcolumns.csv

----编辑2 ----

由于原始文件是一个日志，因此我总共要提取约10个相关的列，因此我确保所有行上都出现了哪些列，而我确实需要这些列。如果有可能它们没有出现在原始文件中，我想最好的做法是使最终文件反映诸如“ aaa，hhh ,, iii”之类的内容。

埃德·莫顿

每当您在数据中包含“标记=值”对时，我都会发现最好首先创建一个数组来保存该映射（tag2val[]如下所示），然后再按其标记（即名称或键）引用所有值。

在所有Unix机器的任何shell中使用任何awk：

$ cat tst.awk
BEGIN {
    FS = OFS = ","
    numTags = split("aaa,hhh",tags)
}
{
    delete tag2val
    for (i=1; i<=NF; i++) {
        tag = $i
        sub(/=.*/,"",tag)
        tag2val[tag] = $i
    }

    for (i=1; i<=numTags; i++) {
        tag = tags[i]
        printf "%s%s", tag2val[tag], (i<numTags ? OFS : ORS)
    }
}

$ awk -f tst.awk file
aaa=somedata1,hhh=somedata8
aaa=somedata1,hhh=somedata8
aaa=somedata1,hhh=somedata8

如果要在每一行上打印所有可能的字段，那么这是一种两遍方法，其中第一遍只是识别每行中的所有可能字段：

$ cat tst.awk
BEGIN {
    FS = OFS = ","
}
NR==FNR {
    for (i=1; i<=NF; i++) {
        tag = $i
        sub(/=.*/,"",tag)
        if ( !seen[tag]++ ) {
            tags[++numTags] = tag
        }
    }
    next
}
{
    delete tag2val
    for (i=1; i<=NF; i++) {
        tag = $i
        sub(/=.*/,"",tag)
        tag2val[tag] = $i
    }

    for (i=1; i<=numTags; i++) {
        tag = tags[i]
        printf "%s%s", tag2val[tag], (i<numTags ? OFS : ORS)
    }
}

$ awk -f tst.awk file file
aaa=somedata1,bbb=somedata2,ccc=somedata3,eee=somedata5,hhh=somedata8,,,,
aaa=somedata1,,,,hhh=somedata8,ddd=somedata4,fff=somedata6,,
aaa=somedata1,bbb=somedata2,,,hhh=somedata8,,,ggg=somedata9,jjj=somedata11

如果只想打印所有行中出现的字段，请执行以下操作：

$ cat tst.awk
BEGIN {
    FS = OFS = ","
}
NR==FNR {
    for (i=1; i<=NF; i++) {
        tag = $i
        sub(/=.*/,"",tag)
        cnt[tag]++
    }
    next
}
FNR==1 {
    for (tag in cnt) {
        if ( cnt[tag] == (NR-1) ) {
            tags[++numTags] = tag
        }
    }
}
{
    delete tag2val
    for (i=1; i<=NF; i++) {
        tag = $i
        sub(/=.*/,"",tag)
        tag2val[tag] = $i
    }

    for (i=1; i<=numTags; i++) {
        tag = tags[i]
        printf "%s%s", tag2val[tag], (i<numTags ? OFS : ORS)
    }
}

$ awk -f tst.awk file file
hhh=somedata8,aaa=somedata1
hhh=somedata8,aaa=somedata1
hhh=somedata8,aaa=somedata1

如果字段顺序的输出很重要，例如，要保持输入顺序，则只需在第一个块中创建一个数组即可将递增计数映射到每个新标记，如下所示：

$ cat tst.awk
BEGIN {
    FS = OFS = ","
}
NR==FNR {
    for (i=1; i<=NF; i++) {
        tag = $i
        sub(/=.*/,"",tag)
        if ( !cnt[tag]++ ) {
            order[++totTags] = tag
        }
    }
    next
}
FNR==1 {
    for (i=1; i<=totTags; i++) {
        tag = order[i]
        if ( cnt[tag] == (NR-1) ) {
            tags[++numTags] = tag
        }
    }
}
{
    delete tag2val
    for (i=1; i<=NF; i++) {
        tag = $i
        sub(/=.*/,"",tag)
        tag2val[tag] = $i
    }

    for (i=1; i<=numTags; i++) {
        tag = tags[i]
        printf "%s%s", tag2val[tag], (i<numTags ? OFS : ORS)
    }
}

$ awk -f tst.awk file file
aaa=somedata1,hhh=somedata8
aaa=somedata1,hhh=somedata8
aaa=somedata1,hhh=somedata8

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-03-5

我来说两句

0 条评论

登录后参与评论

上一篇：Javascript过滤数组中的对象并返回数组中对象的属性

如何使用AWK将某些列从一个CSV文件提取到另一个？

如何使用AWK将某些列从一个CSV文件提取到另一个？

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用