使用熊貓按條件對數據進行分組

DaniV 发表于 Dev

丹尼

我有一個條目數據框'Indata2'，我必鬚根據'Indata ['標籤']'對其數據進行分組，生成一個名為'Indicator'的新列，我已經有了它，我應該做的是更正最後一列a小的。

import pandas as pd   
indata2 = [[2,  'SIS X+',      9.65,    'Q'],
          [2,   'SIS X-',      5.32,    'Q'],
          [2,   'SIS Y+',      8.24,    'Q'],
          [2,   'SIS Y-',      3.27,    'Q'],
          [2,   'SIS',        3.40, 'Q'],
          [2,   'C. VIV',      0.23,    'L'],
          [2,   'SOBRE P',  0.38,   'SD'],
          [2,   'SOBRE P',  0.19,   'SD'],
          [2,   'VIEN X+',  7.36,   'W'],
          [2,   'VIEN X-',  23.09,  'W'],
          [2,   'VIEN Y+',  6.66,   'W'],
          [2,   'VIEN Y-',  2.68,   'W'],
          [4,   'SIS X+',      14.41,   'Q'],
          [4,   'SIS X-',      12.23,   'Q'],
          [4,   'SIS Y+',      10.00,   'Q'],
          [4,   'SIS Y-',      11.00,   'Q'],
          [4,   'C. VIV',      0.38,    'L'],
          [4,   'C. VIV',      0.34,    'L'],
          [4,   'C. VIV',      0.13,    'L'],
          [4,   'SOBRE P',  0.62,   'SD'],
          [4,   'VIEN X+',  29.21,  'W'],
          [4,   'VIEN X-',  8.70,   'W'],
          [4,   'VIEN Y-',  7.46,   'W'],
          [4,   'VIEN Y+',  11.62,  'W'],
          [4,   'VIEN',      9.6,   'W']] 
indata2 = pd.DataFrame(data = indata2, columns = ['KeyData', 'Text', 'AvgAbs', 'Label'])

l = indata2.Label.unique()
m = pd.DataFrame(l, columns = ['Label'])
m['Indicator'] = m.index + 1
outputdata = indata2.merge(m[['Indicator','Label']],'left')
# Correct outputdata['Indicator']

為了更正我在“標籤”中的 2 個特殊標籤：“W”和“Q”。

您可以意識到對於它們中的每一個都有一個文本：對於 Q：[SIS X +, SIS X-, SIS Y +, SIS Y-] 和對於 W: [VIEN X +, VIEN X-, VIEN Y +,維恩Y-]。所有這些數據都已轉換為大寫。

然後，對於新列 'Indicator'：在 'Text' 列中包含至少一個字母 'X' 的所有 'W' 值必須有一個指示符，並且當包含 'Text' 列時至少包含一個字母 'Y'其他指標，這是為了區分它們。

注意：如果 'TEXT' 列中沒有 'X' 或 'Y'，則 'indicator' = 0。

結果（輸出數據）應該是：

KeyData    Text      AvgAbs  Label    Indicator
2         SIS X+       9.65      Q         1.1
2         SIS X-       5.32      Q         1.1
2         SIS Y+       8.24      Q         1.2
2         SIS Y-       3.27      Q         1.2
2         SIS          3.40      Q         0
2         C. VIV       0.23      L         2
2         SOBRE P      0.38     SD         3
2         SOBRE P      0.19     SD         3
2         VIEN X+      7.36      W         4.1
2         VIEN X-      23.09     W         4.1
2         VIEN Y+      6.66      W         4.2
2         VIEN Y-      2.68      W         4.2
4         SIS X+       14.41     Q         1.1
4         SIS X-       12.23     Q         1.1
4         SIS Y+       10.00     Q         1.2
4         SIS Y-       11.00     Q         1.2
4         C. VIV       0.38      L         2
4         C. VIV       0.34      L         2
4         C. VIV       0.13      L         2
4         SOBRE P      0.62     SD         3
4         VIEN X+      29.21     W         4.1
4         VIEN X-      8.70      W         4.1
4         VIEN Y-      7.46      W         4.2
4         VIEN Y+      11.62     W         4.2
4         VIEN         9.60      W         0

not_speshal

嘗試使用map和numpy.select：

mapper = {label: i+1 for i, label in enumerate(indata2["Label"].unique())}
indata2["Indicator"] = np.select([(indata2["Label"]=="Q")&(indata2["Text"].str.contains("X")), 
                                  (indata2["Label"]=="Q")&(indata2["Text"].str.contains("Y")), 
                                  (indata2["Label"]=="W")&(indata2["Text"].str.contains("X")), 
                                  (indata2["Label"]=="W")&(indata2["Text"].str.contains("Y")),
                                  (indata2["Label"].isin(list("QW"))&~(indata2["Text"].str.contains("[X-Y]", regex=True)))
                                 ],
                                 [mapper["Q"]+0.1, mapper["Q"]+0.2, mapper["W"]+0.1, mapper["W"]+0.2, 0],
                                 indata2["Label"].map(mapper))

>>> indata2

    KeyData     Text  AvgAbs Label  Indicator
0         2   SIS X+    9.65     Q        1.1
1         2   SIS X-    5.32     Q        1.1
2         2   SIS Y+    8.24     Q        1.2
3         2   SIS Y-    3.27     Q        1.2
4         2      SIS    3.40     Q        0.0
5         2   C. VIV    0.23     L        2.0
6         2  SOBRE P    0.38    SD        3.0
7         2  SOBRE P    0.19    SD        3.0
8         2  VIEN X+    7.36     W        4.1
9         2  VIEN X-   23.09     W        4.1
10        2  VIEN Y+    6.66     W        4.2
11        2  VIEN Y-    2.68     W        4.2
12        4   SIS X+   14.41     Q        1.1
13        4   SIS X-   12.23     Q        1.1
14        4   SIS Y+   10.00     Q        1.2
15        4   SIS Y-   11.00     Q        1.2
16        4   C. VIV    0.38     L        2.0
17        4   C. VIV    0.34     L        2.0
18        4   C. VIV    0.13     L        2.0
19        4  SOBRE P    0.62    SD        3.0
20        4  VIEN X+   29.21     W        4.1
21        4  VIEN X-    8.70     W        4.1
22        4  VIEN Y-    7.46     W        4.2
23        4  VIEN Y+   11.62     W        4.2
24        4     VIEN    9.60     W        0.0

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-10-28

我来说两句

0 条评论

登录后参与评论

上一篇：如何通过不更改 URL 的“显示更多”按钮获取数据？

在熊貓中按週對數據透視表日期進行分組

使用分類字符串對熊貓數據框進行分組

使用熊貓按條件對數據進行分組

使用熊貓按條件對數據進行分組

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何正确比较 scala.xml 节点？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

在令牌内联程序集错误之前预期为 ')'

数据表中有多个子行，asp.net核心中来自sql server的数据

VBA 自动化错误：-2147221080 (800401a8)

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何在JavaScript中获取数组的第n个元素？

检查嵌套列表中的长度是否相同

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

ES5的代理替代

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

如何监视应用程序而不是单个进程的CPU使用率？

如何检查字符串输入的格式

解决类Koin的实例时出错

如何自动选择正确的键盘布局？-仅具有一个键盘布局