我需要查找列表中的项目是否出现在字符串中,然后将其添加到其他列表中。此代码有效:
data =[]
line = 'akhgvfalfhda.dhgfa.lidhfalihflaih**Thing1**aoufgyafkugafkjhafkjhflahfklh**Thing2**dlfkhalfhafli...'
_legal = ['thing1', 'thing2', 'thing3', 'thing4',...]
for i in _legal:
if i in line:
data.append(i)
但是,代码会反复line
(可能很长)多次-重复其中的次数_legal
(可能很多)。这对于我来说太慢了,我正在寻找一种更快的方法。据我所知,line
它没有任何特定的格式,因此.split()
无法使用。编辑:更改,line
以便更好地表示问题。
我可以想到的一种改进方法是:
_legal
line
使用滑动窗口技术从这些特定长度构建单词词典。复杂度应该是O( len(line)*num_of_unique_lengths )
,这应该比蛮力好。thing
在O(1)的字典中查找每个。码:
line = 'thing1 thing2 456 xxualt542l lthin. dfjladjfj lauthina '
_legal = ['thing1', 'thing2', 'thing3', 'thing4', 't5', '5', 'fj la']
ul = {len(i) for i in _legal}
s=set()
for l in ul:
s = s.union({line[i:i+l] for i in range(len(line)-l)})
print(s.intersection(set(_legal)))
输出:
{'thing1', 'fj la', 'thing2', 't5', '5'}
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句