Pandas Groupby比较Excel中带有子行的2列中的计数相等值

Ehsan 发表于 Dev

易山

我有一个像这样的Excel文件：

.----.-------------.-------------------------.-----------------.
|    |     ID      | Shareholder - Last name |   DM Cognome    |
:----+-------------+-------------------------+-----------------:
| 1. | 01287560153 | MASSIRONI               | Bocapine Ardaya |
:----+-------------+-------------------------+-----------------:
|    |             | CAGNACCI                |                 |
:----+-------------+-------------------------+-----------------:
| 2. | 05562881002 |                         | Directors       |
:----+-------------+-------------------------+-----------------:
| 3. | 04113870655 | SABATO                  | Sabato          |
:----+-------------+-------------------------+-----------------:
|    |             | VILLARI                 |                 |
:----+-------------+-------------------------+-----------------:
| 4. | 01419190846 | SALMERI                 | Salmeri         |
:----+-------------+-------------------------+-----------------:
|    |             | MICALIZZI               | Lipari          |
:----+-------------+-------------------------+-----------------:
|    |             | LIPARI                  |                 |
'----'-------------'-------------------------'-----------------'

ffill由于存在子行，因此我使用pandas和ID列打开了此文件。然后groupby通过ID获取Shareholder - Last name和DM\nCognome列上任何相等值的计数。但是我不能。在这种情况下，结果应为0 row1 0 row2 1 row3 2 row4。

应该注意的是，第4行由3个子行组成，第3行也由2个子行组成。

我有两个问题：

读取如上所述的无组织excel文件并进行大量比较，替换值等的最佳方法是什么？
如何获得我前面提到的结果。

这是我所做的，但是不起作用：

data['ID'] = data['ID'].fillna(method='ffill')
data.groupby('ID', sort=False, as_index=False)['Shareholder - Last name', 'DM\nCognome'].apply(lambda x: (x['Shareholder - Last name']==x['DM\nCognome']).count())

戴维·布雷克斯

首先，读取表作为输入（将ID保留为字符串而不是float）：

df = pd.read_excel("Workbook1.xlsx", converters={'ID':str})
df = df.drop("Unnamed: 0", axis=1) #drop this column since it is not useful

填写ID，如果缺少股东，请用“ Missing”替换Nan：

df['ID'] = df['ID'].fillna(method='ffill')
df["Shareholder - Last name"] = df["Shareholder - Last name"].fillna("missing")

将姓转换为小写：

df["Shareholder - Last name"] = df["Shareholder - Last name"].str.lower()

自定义函数，用于计算另一列中出现的住户数量：

def f(group):
    s = pd.Series(group["DM\nCognome"].str.lower())
    count = 0
    for surname in group["Shareholder - Last name"]:
        count += s.str.count(surname).sum()
    return count

最后获得每个ID的计数：

df.groupby("ID",sort=False)[["Shareholder - Last name", "DM\nCognome"]].apply(lambda x: f(x))

输出：

ID
01287560153    0.0
05562881002    0.0
04113870655    1.0
01419190846    2.0

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-24

我来说两句

0 条评论

登录后参与评论

上一篇：概念可以与模板模板参数一起使用吗？

Pandas Groupby比较Excel中带有子行的2列中的计数相等值

Pandas Groupby比较Excel中带有子行的2列中的计数相等值

Android Studio Kotlin：提取为常量

计算数据帧R中的字符串频率

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

TreeMap中的自定义排序

TYPO3：将 Formhandler 添加到新闻扩展

遍历元素数组以每X秒在浏览器上显示

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

无法连接网络并在Ubuntu 14.04中找到eth0

将辅助轴原点与主要轴对齐

我可以ping IPv6但不能ping IPv4

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

提交html表单时为空

使用C ++ 11将数组设置为零

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称

尝试在Dell XPS13 9360上安装Windows 7时出错

如何在R中转置数据

无法使用 envoy 访问 .ssh/config

未捕获的SyntaxError：带有Ajax帖子的意外令牌u