我制作了阿拉伯文字典文件,可在LibreOffice和LyX中使用。它包含超过270万个阿拉伯语单词。
有时,我们可以使用来写单词ه
,有时可以在单词ة
的末尾加上。
我想使用带有sed
或的脚本,或者tr
说如果有两个相同的单词,除了最后一个字母,并且两个单词的最后一个字母是ة
and ه
,请删除包含的单词ه
。
输入示例:
الجنة
الجنه
الشجرة
الشجره
输出:
الجنة
الشجرة
试试这个:
awk -v TA=ة -v HA=ه '
{ orig = $0 }
sub(HA"$", TA) { $0 in ta || ha[$0] = orig; next }
$0 ~ TA"$" { ta[$0] = 1; delete ha[$0] }
{ print }
END{ for(i in ha) print ha[i] }
' input_file | LC_ALL=C sort -u > output_file
我试图通过创建自定义功能来做一些更聪明的事情LC_COLLATE
,但并没有对其进行管理;-)
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句