使用正则表达式,如何分割字符串并将其分隔符保留在返回的结果中?我正在尝试将包含数字和字符串的字符串拆分为一组字母,后跟任何包含“。”的数值。但是它似乎无法正常工作。
下面是我的测试字符串,即时消息使用的是python 2.7,它没有产生预期的ID。
s = 'M160.394,83.962L121.5,52L86.31,73.378L58,104.917L89.75,C136.667L158.542,136.667L185,110.208L160.394,83.962Z'
parts = filter(None, re.split('([MLHVCSQTAZ][^MLHVCSQTAZ]+)', s, re.IGNORECASE))
print len(parts), parts
>>> 3 ['M160.394,83.962', 'L121.5,52', 'L86.31,73.378L58,104.917L89.75,C136.667L158.542,136.667L185,110.208L160.394,83.962Z']
我希望它能给我这个
>>> 10 ['M160.394,83.962', 'L121.5,52', 'L86.31,73.378', 'L58,104.917', 'L89.75,', 'C136.667', 'L158.542,136.667', 'L185,110.208', 'L160.394,83.962', 'Z']
它应该输出一个字符串列表,其中每个字符串都以一个字母开头,在原始正则表达式中可以找到 MLHVCSQTAZ
在你的代码被传递re.IGNORECASE
为第一个参数re.split
,但第3个参数re.split
是maxsplit
不是标志。
re.IGNORECASE
等于2,因此您的输入仅被拆分两次。
您可以使用:
>>> list(filter(None, re.split(r'([MLHVCSQTAZ][^MLHVCSQTAZ]+)', s, 0, re.I)))
['M160.394,83.962', 'L121.5,52', 'L86.31,73.378', 'L58,104.917', 'L89.75,', 'C136.667', 'L158.542,136.667', 'L185,110.208', 'L160.394,83.962', 'Z']
或使用内联模式忽略大小写:
re.split(r'(?i)([MLHVCSQTAZ][^MLHVCSQTAZ]+)', s)
我建议使用re.findall
使用几乎相同的正则表达式的简单代码:
parts = re.findall('(?i)[MLHVCSQTAZ][^MLHVCSQTAZ]*', s)
参考: SRE_FLAG_IGNORECASE = 2
中lib/python2.7/sre_constants.py
(感谢@vks的评论)
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句