在PIG中如何删除相似的值

或者

在我的猪脚本中,我有一个针对country1和country2的列以及一个ID。在我的国家/地区字段中,某些值类似于以下内容。如何过滤出至少连续2个相同字符的相似值

前任:

a = load file
a = generate id, country1, country2

输出:

id1, us, usa
id2, gb, gba
id3, in, ind
id4, in, usa

expected output:
id4, in, usa
VK_217

使用SUBSTRING获取第3列的前两个字符,并将其与第2列的值进行比较。

B = FILTER A BY (LOWER(A.$1) != SUBSTRING(LOWER(A.$2),0,2));
DUMP B;

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章