Python - Pandas 過濾器和分組依據

Patrik Novotný 发表于 Dev

17

帕特里克·諾沃特尼

我需要最相似的列文件，我有數據：

輸入：

我需要 cluster-1 在最大計數中等於 cluster-2，一個不會被指定為不包含在集群中的文件

輸出：

耶斯列

首先Series.mode按原始列比較每個組，過濾器，並在必要時添加未過濾的行，分配bin給cluster-2：

print (df)
  file  cluster-1  cluster-2
0    A          1          2
1    D          1          2
2    G          2          4
3    B          3          1
4    E          3          2
5    J          3          1

m = (df.groupby('cluster-1')['cluster-2']
      .transform(lambda x: x.mode().iat[0])
      .eq(df['cluster-2']))
df = (df[m].append(df[~m].assign(**{'cluster-1':'bin'}), ignore_index=True)
          .rename(columns={'cluster-1':'cluster'})
          .drop('cluster-2', axis=1))
print (df)
  file cluster
0    A       1
1    D       1
2    G       2
3    B       3
4    J       3
5    E     bin

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-12-8

我来说两句

0 条评论

登录后参与评论

上一篇：NodeJS中的自定義阻止默認值

相关文章

多條件過濾器python pandas

Python - 熊貓，分組依據和最大計數

Python Pandas 根據列值過濾行返回 NaN

在 Pandas 數據透視表上應用多個過濾器

基於 groupby 的過濾器拆分 Pandas 數據幀

在多索引數據幀中的 Pandas loc 中捕獲過濾器異常

Python列表數據過濾

Pandas：根據不同組中另一列的值過濾行（合計兩列）

排序和組合日期時間數據幀 Pandas Python

帶有 Kwargs 未知值列表的 Python 過濾器數據框

使用 python 和 Pandas 將多數組 json 數據轉換為扁平數據框

Pandas DateTime 索引，基於時間和日期過濾器為列賦值

日期過濾器問題（python）

嘗試根據過濾器刪除 Pandas 數據框中的行時出現關鍵錯誤

根據python中的鍵值過濾字典列表

如何通過對多個變量進行分組來創建新的 Pandas 數據框？

Pandas 通過子串匹配過濾數據框列

pandas 數據框的單元格引用，根據特定值過濾

如何根據pandas中的列值（國家/地區）過濾數據框

Python Pandas Groupby 和聚合

遍历python和pandas循环

Python Pandas过滤和分组

Python Pandas 绘图和 groupby

Python和Pandas对象分配

Python 和 Pandas：构造条件

Python pandas - 分组和绘图

將一組數據（URLS）放入一個空的數據幀 Python Pandas

SQL Case 語句和分組依據

在 Python Pandas 中加入數據框

TOP 榜单

文章

热门标签

归档