如何确定两个大熊猫常见列中有几个字符？

尼古拉斯·格维斯（Nicolas Gervais）

我有dataframe两列。我想知道他们有多少个共同点。公用元素的数量应为一个新列。这是一个最小可重复的示例。

是）我有的：

import pandas as pd
from string import ascii_lowercase
import numpy as np

df = pd.DataFrame([[''.join(np.random.choice(list(ascii_lowercase), 
                8)) for i in range(10)] for i in range(2)], 
                  index=['col_1', 'col_2']).T

Out[17]: 
      col_1     col_2
0  ollcgfmy  daeubsrx
1  jtvtqoux  xbgtrzno
2  irwmoqqa  mdblczfa
3  jyebzpyd  xwlynkhw
4  ifuqojvs  lxotbsju
5  fybsqbku  xwbluaek
6  oylztnpf  gelonsay
7  zdkibutk  ujlcwhfu
8  uhrcjbsk  nhxhpoii
9  eocxreqz  muvfwusi

我需要什么（数字是随机的）：

Out[19]: 
      col_1     col_2  common_letters
0  ollcgfmy  daeubsrx               1
1  jtvtqoux  xbgtrzno               1
2  irwmoqqa  mdblczfa               0
3  jyebzpyd  xwlynkhw               3
4  ifuqojvs  lxotbsju               3
5  fybsqbku  xwbluaek               3
6  oylztnpf  gelonsay               3
7  zdkibutk  ujlcwhfu               3
8  uhrcjbsk  nhxhpoii               1
9  eocxreqz  muvfwusi               3

编辑：对于阅读此文章以试图使两个字符串之间具有相似性的任何人，请勿使用此方法。还存在其他相似性度量，例如levenshtein或jaccard。

穆罕默德·阿里·贾马维

使用df.apply和set操作可以是解决问题的一种方法：

df["common_letters"] = df.apply(
    lambda x: len(set(x["col_1"]).intersection(set(x["col_2"]))),
    axis=1)

输出：

      col_1     col_2  common_letters
0  cgeabfem  amnwfsde               4
1  vozgpmgs  slfwvjnv               2
2  xyvktrfr  jtzijmud               1
3  piexmmgh  ydaxbmyo               2
4  iydpnwcu  hhdxyptd               3

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-22

我来说两句

0 条评论

登录后参与评论

上一篇：vec [i] [j]转换为*（vec + i + j）吗？

如何确定两个大熊猫常见列中有几个字符？

如何确定两个大熊猫常见列中有几个字符？

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何正确比较 scala.xml 节点？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

在令牌内联程序集错误之前预期为 ')'

数据表中有多个子行，asp.net核心中来自sql server的数据

VBA 自动化错误：-2147221080 (800401a8)

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何在JavaScript中获取数组的第n个元素？

检查嵌套列表中的长度是否相同

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

ES5的代理替代

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

如何监视应用程序而不是单个进程的CPU使用率？

如何检查字符串输入的格式

解决类Koin的实例时出错

如何自动选择正确的键盘布局？-仅具有一个键盘布局