如何匹配for循环中以某个字母序列开头的所有单词？（蟒蛇）

Xenia Biagini

我有一本字典，里面有一些人格特质和相关的形容词：

personality={'sincerity': [ "tru", "honest"],'excitement': ['excit', 'fizzy']}

（请注意，这要长得多）

我还有一本字典，其中包含从推文中提取的单词列表：

prova={"brand1": ["true", "truth", "thrutfull", "orange", "friend", "meaning"], "brand2": ["truth", "exiting", "excited", "lama", "lambo", "blade"]}

我想将个性词典中的一个字符串与包含在prova词典中的该字符的所有字符串匹配：个性[sincerity]中的字符串“ tru”应该与prova [brand1]中的“ true”，“ truth”，“ truthful”匹配和prova [brand2]中的“真相”。

因为我有很多品牌，所以我想通过for循环这样做。有什么建议吗？

尼古拉斯·查兹斯

如果您要实现的目标是对@Wasif Hasan答案的评论中所描述的内容，而这与问题描述中的内容有所不同，则可以尝试：

>>> from collections import defaultdict
>>> import re
>>>
>>> personality = {
...     "sincerity": ["tru", "honest"],
...     "excitement": ["excit", "fizzy"]}
>>> prova = {
...     "brand1": ["true", "truth", "thrutfull", "orange", "friend", "meaning"], 
...     "brand2": ["truth", "exiting", "excited", "lama", "lambo", "blade"]}
>>>
>>> patterns = {k:re.compile(f"\s?({'|'.join(v)})") for k,v in personality.items()}
>>> results = defaultdict(dict)
>>>
>>> for k1, v1 in prova.items():
...     for k2, v2 in patterns.items():
...         results[k1][k2] = len(v2.findall(' '.join(v1)))
... 
>>> results
defaultdict(<class 'dict'>, {'brand1': {'sincerity': 2, 'excitement': 0}, 'brand2': {'sincerity': 1, 'excitement': 1}})
>>> results['brand1']
{'sincerity': 2, 'excitement': 0}

上面的代码首先创建一个dict正则表达式对象（请参阅参考资料patterns = ...）。与dict具有相同的键，personality并且值是与中的值生成的模式相对应的对象personality。例如，对于该图案sincerity是"\s?(tru|honest)"。构造了模式，以便以后可以搜索tru或honest遵循no或一个空白。我使用模式在中搜索每个品牌的值中的匹配项prova。为了计算发生次数，我从值中构造了一个字符串（例如forbrand1 ["true", "truth", "thrutfull", "orange", "friend", "meaning"]变为"true truth thrutfull orange friend meaning"），并用于len(findall)查找匹配数。

笔记：

我假设list与每个品牌相关联的sprova没有重复项（或者，如果它们有重复项，您有兴趣对多次出现的单词计数）。如果不是这种情况，则需要' '.join(v1)使用更新set()以消除重复。
我还假设其中的字符串personality是您期望其中的单词prova开始的方式。相反，如果您正在各处寻找匹配项，则需要re.compile...通过删除进行更新\s?。
在您的描述中，您有错字，即“ thrutfull”。这就是为什么即使您期望个性[sincerity]中的“ tru”与prova [brand1]中的“ true”，“ truth”，“ truthful”匹配，您在上面看到的还是有2个匹配（而不是3个匹配）。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-26

我来说两句

0 条评论

登录后参与评论

上一篇：通过simple-salesforce查询Python中的ID列表

TOP 榜单

文章

如何匹配for循环中以某个字母序列开头的所有单词？（蟒蛇）

如何匹配for循环中以某个字母序列开头的所有单词？（蟒蛇）

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何检查字符串输入的格式

检查嵌套列表中的长度是否相同

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何自动选择正确的键盘布局？-仅具有一个键盘布局

如何正确比较 scala.xml 节点？

在令牌内联程序集错误之前预期为 ')'

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

解决类Koin的实例时出错

ES5的代理替代

有什么解决方案可以将android设备用作Cast Receiver？

VBA 自动化错误：-2147221080 (800401a8)

套接字无法检测到断开连接