我在MediaText标记中包含一个(瑞典)维基百科文章的unicode文件。我想清除所有标记。在某些情况下,我想从标记标签中提取文本,例如超链接的链接标题(如简化的wikiextractor)。
我的方法是在文件上运行一组正则表达式以删除标记。在链接示例中,我需要替换[[link]]
为link
。只要文本不包含Unicode字符(例如),我就可以使用正则表达式很好地解决此问题ö
。
我尝试过的示例:
ghci> :m +Data.Text
ghci> subRegex (mkRegex "\\[\\[([() a-zA-Z]*)\\]\\]") "Se mer om [[Stockholm]]" "\\1"
"Se mer om Stockholm"
ghci> subRegex (mkRegex "\\[\\[([() a-zA-Z]*)\\]\\]") "Se mer om [[Göteborg]]" "\\1"
"Se mer om [[G\246teborg]]"
为什么这不起作用?如何使正则表达式引擎意识到这ö
确实是一个普通字母(至少在瑞典语中如此)?
编辑:问题似乎并不真正存在于模式中,而是在引擎中。如果我允许除q
链接文本外的所有字符,则ö
可以允许。但是不是...
ghci> subRegex (mkRegex "\\[\\[([^q]*)\\]\\]") "[[Goteborg]]" "\\1"
"Goteborg"
ghci> subRegex (mkRegex "\\[\\[([^q]*)\\]\\]") "[[Göteborg]]" "\\1"
"[[G\246teborg]]"
ghci> subRegex (mkRegex "ö") "ö" "q"
"q"
ghci> subRegex (mkRegex "[ö]") "ö" "q"
"\246"
使用字符类时,该问题似乎特别出现。它ö
本身就可以匹配。
我现在决定按照作者写的SO Answer中的建议使用Text.Regex.PCRE.Heavy 。它解决了我的问题。
因此,解决方案成为
GHCi, version 7.10.3: http://www.haskell.org/ghc/ :? for help
Prelude> :m Text.Regex.PCRE.Heavy
Prelude Text.Regex.PCRE.Heavy> :set -XFlexibleContexts
Prelude Text.Regex.PCRE.Heavy> :set -XQuasiQuotes
Prelude Text.Regex.PCRE.Heavy> gsub [re|\[\[([^\]]*)\]\]|] (\(firstMatch:_) -> firstMatch :: String) "[[Göteborg]]" :: String
"G\246teborg"
不幸的是,我仍然不知道为什么POSIX后端不能处理这个,但是PCRE后端可以处理。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句