如何删除文本文件中的重复行？

Ivan 发表于 Dev

伊万

我的一个巨大的文本文件（最多2 GiB）包含其中每一行的大约100个精确重复项（对我而言，这是无用的，因为该文件是类似CSV的数据表）。

我需要的是在保持原始序列顺序的同时删除所有重复（最好是牺牲掉，但这可以显着提高性能）。结果，每一行都是唯一的。如果有100条相等的行（通常重复项分布在整个文件中，并且不会成为邻居），则只剩下其中一种。

我已经用Scala编写了一个程序（如果您不了解Scala，请考虑使用Java）来实现此目的。但是，也许有更快的C编写的本机工具能够更快地做到这一点？

更新：awk '!seen[$0]++' filename只要文件接近2 GiB或更小，该解决方案对我来说似乎就很好，但是现在我要清理8 GiB文件就不再起作用了。在配备4 GiB RAM和配备4 GiB RAM和6 GiB交换功能的64位Windows 7 PC的Mac上，似乎占用了无限空间。鉴于这种经验，我对在具有4 GiB RAM的Linux上尝试它并不感到热心。

恩佐替布

awk在#bash（Freenode）上看到的解决方案：

awk '!seen[$0]++' filename

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-03-9

我来说两句

0 条评论

登录后参与评论

上一篇：用于将子文件夹“提取”到父文件夹的脚本

TOP 榜单

文章

如何删除文本文件中的重复行？

如何删除文本文件中的重复行？

Linux的官方Adobe Flash存储库是否已过时？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

如何检查字符串输入的格式

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

Modbus Python施耐德PM5300

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

用日期数据透视表和日期顺序查询

检查嵌套列表中的长度是否相同

Java Eclipse中的错误13，如何解决？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

如何自动选择正确的键盘布局？-仅具有一个键盘布局

ES5的代理替代

在令牌内联程序集错误之前预期为 ')'

有什么解决方案可以将android设备用作Cast Receiver？

套接字无法检测到断开连接

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

应用发明者仅从列表中选择一个随机项一次

在Windows 7中无法删除文件（2）

ggplot：对齐多个分面图-所有大小不同的分面