Grep找出满足特定条件的“大多数”行

职员

我有1600万行数据文件，正在将其用作回归测试/重播工具的一部分。数据有很多相似的行。我想从文件中删除许多类似的行

文件格式

|DATA|DATA|DATE|3|DATA|DATA
|DATA|DATA|DATE|3|DATA|DATA
|DATA|DATA|DATE|3|DATA|DATA
|DATA|DATA|DATE|2|DATA|DATA
|DATA|DATA|DATE|4|DATA|DATA
|DATA|DATA|DATE|2|DATA|DATA
|DATA|DATA|DATE|2|DATA|DATA

该文件为1600万行，带有2、3或10的第4个元素的行组成1300万行。第2个元素，第2个，第3个或第10个元素的行彼此相似，因此我想从文件中删掉它们的90％。为了获得一些消息类型的计数，我能够运行此命令以找到第4个元素为3的所有行

awk -F"|" '$4=="3"' capture.txt > out.txt

那条线是我用来确定最常见消息的可重复性的方式，但是它并没有帮助我删节那些记录。我真正想要的是能够创建一个新文件，其中包括

    (All records where pipe deliminated 4th element is not 2, 3 or 10) +
    (1 out of every 10 records where the 4th element is 2, 3 or 10)

通过文件一次可以做到这一点吗？我想我可以创建两个文件，将第4个元素分别为2、3或10的记录与具有不同第4个元素的记录分开。然后，我可能会从一个文件中删除第10行，然后将它们组合在一起。但我真正的偏好是一次性完成此操作并保留原始文件顺序。

有什么想法吗？

卡拉法

也许随机方法会更好。

awk -F'|' 'BEGIN{srand()} $5~/^(2|3|10)$/{if(rand()<0.1) print; next}1' file

将有大约10％的机会打印这些行，您可以设置一个种子使其也可重复。请注意，您应该检查的是第五字段，而不是第四字段。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-04-17

我来说两句

0 条评论

登录后参与评论

上一篇：PyInstaller给我一个语法错误

TOP 榜单

文章

Grep找出满足特定条件的“大多数”行

Grep找出满足特定条件的“大多数”行

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用