CSV 过滤具有混合数据类型的列

dsl 发表于 Dev

数字用户线

我有一个包含许多列和行的 CSV。第 4 列有一些字符串，有些没有。当我尝试过滤掉重复项时，它会删除我想保留的那些。

当我运行时：

awk -F ',' '!seen[$4]++' oldfile.csv > newfile.csv

在

71523180,PRASAD  JAMES ANAND, ,#3 ALEX BOYD LINK HILLSBORO
71523190,PRASAD  SHAKUNPALA, ,#3 ALEX BOYD LINK HILLSBORO
71523200,PRASAD  BOBBY UMENDRA, ,#3 ALEX BOYD LINK HILLSBORO

它返回我想要的：

71523180,PRASAD  JAMES ANAND, ,#3 ALEX BOYD LINK HILLSBORO

但是，当我运行那行代码时

71508050,"HUNT,  RICHARD F", ,1009 # B FATHOM DR
71508060,"HUNT,  RICHARD F", ,1009 # B FATHOM DR
71561950,"HUNT,  RICHARD F", ,1009 # B FATHOM DR
71562840,"HUNT,  RICHARD F", ,1009 # B FATHOM DR

它会删除所有这些条目。

该怎么办？谢谢

跟进

使用 perl 似乎有效，但给了我一个小错误。这是一个问题吗？

$ perl -w -MText::CSV_XS=csv -e 'csv(in => \*STDIN, filter => { 4 => sub { !$seen{$_}++ }})' <combined4.csv > combine6.csv
名称“main::seen”仅使用一次：-e 第 1 行可能出现错别字。

肖恩

如果您的 CSV 数据不重要，在引用字段中包含逗号awk之类的内容，那么与尝试在其上使用或类似内容相比，了解格式的工具是更好的选择。

使用Text::CSV_XS模块的perl one-liner 示例（通过您的操作系统包管理器或最喜欢的 CPAN 客户端安装）：

$ perl -MText::CSV_XS=csv -e 'csv(in => \*STDIN, filter => { 4 => sub { ! $seen{$_}++ }})' < input.csv
71508050,"HUNT,  RICHARD F"," ","1009 # B FATHOM DR"

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-08-9

我来说两句

0 条评论

登录后参与评论

上一篇：数组中的随机项目，在 Javascript 中不重复元素

CSV 过滤具有混合数据类型的列

CSV 过滤具有混合数据类型的列

计算数据帧R中的字符串频率

Android Studio Kotlin：提取为常量

Excel 2016图表将增长与4个参数进行比较

获取并汇总所有关联的数据

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

将加号/减号添加到jQuery菜单

算术中的c ++常量类型转换

TYPO3：将 Formhandler 添加到新闻扩展

TreeMap中的自定义排序

如何开始为Ubuntu开发

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

无法使用 envoy 访问 .ssh/config

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

遍历元素数组以每X秒在浏览器上显示

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

尝试在Dell XPS13 9360上安装Windows 7时出错

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称