两个单词的最后一个字母不同(阿拉伯语)

我制作了阿拉伯文字典文件,可在LibreOffice和LyX中使用。它包含超过270万个阿拉伯语单词。

有时,我们可以使用来写单词ه,有时可以在单词ة的末尾加上。

我想使用带有sed的脚本,或者tr说如果有两个相同的单词,除了最后一个字母,并且两个单词的最后一个字母是ةand ه,请删除包含的单词ه

输入示例:

الجنة
الجنه
الشجرة
الشجره

输出:

الجنة 
الشجرة
满天星

试试这个:

awk -v TA=ة -v HA=ه '
        { orig = $0 }
        sub(HA"$", TA) { $0 in ta || ha[$0] = orig; next }
        $0 ~ TA"$" { ta[$0] = 1; delete ha[$0] }
        { print }
        END{ for(i in ha) print ha[i] }
' input_file | LC_ALL=C sort -u > output_file

我试图通过创建自定义功能来做一些更聪明的事情LC_COLLATE,但并没有对其进行管理;-)

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何确定一个字符串是英语还是阿拉伯语?

仅匹配阿拉伯语和英语字母数字,仅允许一个空格

至少3个单词或更多,但使用阿拉伯语[HTML模式]

最后一个字星号代替,或最后两个单词

修改单词的最后一个字母?

阿拉伯语中的字母间距

删除 R 中的非阿拉伯语单词

itext显示阿拉伯语单词的空行

在SQL Server中插入阿拉伯语单词

使用PowerShell过滤阿拉伯语单词

用阿拉伯语突出显示单词

阿拉伯语单词如何与“ tashkel”匹配?

如何为android开发pocketsphinx以获得更好的质量,77次尝试只得到一个词的阿拉伯语识别?

DatePickerDialog用阿拉伯语

Redis阿拉伯语解码

笔尖镜像阿拉伯语

Python函数判断一个字符串中的两个单词是否以同一个字母开头

在阿拉伯语单词上的MySQL SELECT在PHP上返回0个结果,但在SQLBuddy / phpMyAdmin上返回0个结果

从前两个单词的字符串中获取第一个字母

在python 2.7中打印阿拉伯语/波斯语字母

RTL(波斯语-阿拉伯语)字母被android studio编辑器弄乱了

如何解决带有阿拉伯语单词的链接变成没有阿拉伯语单词的链接

PHP RegEx匹配阿拉伯语字符串前后一定数量的单词

Python如何大写单词的第一个字母和最后三个字母

如果一个单元格包含两个单词,我该如何使用第一个单词的第一个字母,但使用第二个单词的所有字母?

如何在JavaScript中获取单词或字符串的最后一个字母?

如何大写字符串中每个单词的最后一个字母

SQL:返回包含最后一个字母是除 K 之外的任何单词的记录

如何在PHP的句子中大写每个单词的最后一个字母?