遍历groupby并添加新列

克莱门斯

我需要编写一个小脚本来获取一些数据（每个文件约5万行），而我的原始文件如下所示：

    Label   ID  TRACK_ID    QUALITY POSITION_X  POSITION_Y  POSITION_Z  POSITION_T  FRAME   RADIUS  VISIBILITY  MANUAL_COLOR    MEAN_INTENSITY  MEDIAN_INTENSITY    MIN_INTENSITY   MAX_INTENSITY   TOTAL_INTENSITY STANDARD_DEVIATION  ESTIMATED_DIAMETER  CONTRAST    SNR
    ID1119  1119    9       6.672     384.195     122.923   0   0   0   5   1   -10921639   81.495  0   0   255 7905    119.529 5.201   1   0.682
    ID2237  2237    9       7.078     381.019     122.019   0   1   1   5   1   -10921639   89.381  0   0   255 8670    122.301 5.357   1   0.731
    ID2512  2512    9       7.193     377.739     120.125   0   2   2   5   1   -10921639   92.01   0   0   255 8925    123.097 5.356   1   0.747
    (...)
    ID1102  1102    18      4.991     808.857     59.966    0   0   0   5   1   -10921639   52.577  0   0   255 5100    103.7   4.798   1   0.507
    (...)

它是一个相当大的表，最多可容纳5万行。现在，并不是所有数据对我都很重要，我主要需要Track_ID以及X和Y位置。所以我使用excel文件创建一个数据框，只访问相应的列

IN   df = pd.read_excel('.../sample.xlsx', 'Sheet1',parse_cols="D, F,G")

并且这按预期工作。每个track_id基本上是一组需要分析的数据。因此，直接的方法是按track_id对数据帧进行分组

IN Grouping = df.groupby("TRACK_ID")

也可以按预期工作。现在，我需要获取每个组的第一个POSITION_X值，然后从该组中的其他POSITION_X值中减去它们。现在，我已经读过循环可能不是解决问题的最佳方法，但是我不知道该怎么做。

for name, group in Grouping:
    first_X = group.iloc[0, 1]
    vect = group.iloc[1:,1] - first_X

这会将值存储在vect中，如果我将其打印出来，它将为我提供正确的值。但是，我有一个问题，就是我现在不知道如何将其添加到新列中。也许有人可以引导我朝正确的方向发展。提前致谢。

编辑这是由chappers建议

def f(grouped):
    grouped.iloc[1:] = 0
    return grouped

grouped = df.groupby('TRACK_ID')
df['Calc'] = grouped['POSITION_X'].apply(lambda x: x - x.iloc[0]) grouped['POSITION_X'].apply(f)
for name, group in grouped:
    print name
    print group

Input:    
     TRACK_ID  POSITION_X  POSITION_Y
0          9     384.195     122.923
1          9     381.019     122.019
2          9     377.739     120.125
3          9     375.211     117.224
4          9     373.213     113.938
5          9     371.625     110.161
6          9     369.803     106.424
7          9     367.717     103.239
8         18     808.857      59.966
9         18     807.715      61.032
10        18     808.165      63.133
11        18     810.147      64.853
12        18     812.084      65.084
13        18     812.880      63.683
14        18     812.083      62.203
15        18     810.041      61.188
16        18     808.568      62.260

Output for group == 9
   TRACK_ID  POSITION_X  POSITION_Y     Calc
0         9     384.195     122.923  384.195
1         9     381.019     122.019   -3.176
2         9     377.739     120.125   -6.456
3         9     375.211     117.224   -8.984
4         9     373.213     113.938  -10.982
5         9     371.625     110.161  -12.570
6         9     369.803     106.424  -14.392
7         9     367.717     103.239  -16.478

因此，预期的输出将是每个组的第一个计算值是0

这是一种处理方法，使用apply方法从所有其他对象中减去第一项。

df = DataFrame({'A' : ['foo', 'foo', 'foo', 'foo',
                           'bar', 'bar', 'bar', 'bar'],
                    'C' : [1,2,3,4,4,3,2,1]})

grouped = df.groupby('A')
df['C1'] = grouped['C'].apply(lambda x: x - x.iloc[0])

这将有输入：

     A  C
0  foo  1
1  foo  2
2  foo  3
3  foo  4
4  bar  4
5  bar  3
6  bar  2
7  bar  1

和输出

     A  C  C1
0  foo  1   0
1  foo  2   1
2  foo  3   2
3  foo  4   3
4  bar  4   0
5  bar  3  -1
6  bar  2  -2
7  bar  1  -3

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-03-31

我来说两句

0 条评论

登录后参与评论

上一篇：Windows批处理命令为文件分配特定的时间/日期戳

熊猫groupby并添加新列

遍历if语句的行并添加到新列[Pandas / Python]

使用GroupBy向数据框添加新列

如何在pandas groupby中添加新列？

将GroupBy平均结果添加为熊猫中的新列

Groupby & Sum - 創建新列並添加 If 條件

根据 Pandas Groupby 中的组合标准添加新列

遍历链表并添加新值

循环遍历并将列表添加到新行或新列中的数据框

循环遍历特定的列数据，并将结果添加为R中的新列

在pyspark数据框中遍历两列的同时向新列添加值

遍历数据框中的行创建一个新列，然后基于该新列添加更多列

基于groupby添加列

使用熊猫组合工作表，遍历特定列，将行添加到新列表

如何遍历数据框，创建新列并在python中为其添加值

遍历数据框以添加具有顺序值的新列

添加一个具有基于 groupby 值的值的新列另外两列

遍历pandas列并创建新列

在创建新的列Matlab时遍历列

根据 groupby 值向 Pandas 数据框添加一个新列

为groupby中的每个组将value_counts（）的索引添加到新列

熊猫中的新列-通过应用列表groupby将系列添加到数据框

熊猫：将具有多个值的新列添加到groupby数据框

Pandas GroupBy并将唯一值计数添加为新列

添加新列后，我尝试在数据框上使用groupBy，但遇到任务TaskNotSerializable问题

Pandas：将汇总信息添加到 groupby 框架中的新列

每次参考列的值更改时，都添加一个带有循环遍历向量的值的新列

SQL添加新列

添加新列天

TOP 榜单

文章

遍历groupby并添加新列

遍历groupby并添加新列

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何正确比较 scala.xml 节点？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

在令牌内联程序集错误之前预期为 ')'

数据表中有多个子行，asp.net核心中来自sql server的数据

VBA 自动化错误：-2147221080 (800401a8)

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何在JavaScript中获取数组的第n个元素？

检查嵌套列表中的长度是否相同

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

ES5的代理替代

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

如何监视应用程序而不是单个进程的CPU使用率？

如何检查字符串输入的格式

解决类Koin的实例时出错

如何自动选择正确的键盘布局？-仅具有一个键盘布局