我有这样的数据(文件称为list-in.dat
)
a ; b ; c ; i
d
e ; f ; a ; b
g ; h ; i
我想要一个这样的列表(输出文件list-out.dat
),其中包含所有项目,按字母顺序(不区分大小写),每个唯一项目仅一次。
a
b
c
d
e
f
g
h
i
我的尝试是:
awk -F " ; " ' BEGIN { OFS="\n" ; } {for(i=0; i<=NF; i++) print $i} ' file-in.dat | uniq | sort -uf > file-out.dat
但是我最终得到了所有的附件,除了那些只有一项的行:
a
b
c
e
f
g
h
i
无论一行中有多少个项目,如果缺少字段分隔符,如何获取所有(唯一的,已排序的)项目?
使用gnu-awk
:
awk -F '[[:blank:]]*;[[:blank:]]*' '{
for (i=1; i<=NF; i++) uniq[$i]
}
END {
PROCINFO["sorted_in"]="@ind_str_asc"
for (i in uniq)
print i
}' file
a
b
c
d
e
f
g
h
i
对于non-gnu awk
使用:
awk -F '[[:blank:]]*;[[:blank:]]*' '{for (i=1; i<=NF; i++) uniq[$i]}
END{for (i in uniq) print i}' file | sort
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句