熊猫groupby .sum如何返回错误的值？

RDJ 发表于 Dev

RDJ

将agroupby应用于DataFrame时，结果分组值的总和与采用原始DataFrame的列总和时的总和不同。这怎么可能？我无法显示我的完整数据，因为它很敏感，而且更烦人的是，我似乎无法重现问题。下面的示例对此进行了说明。

说我有这个数据框df2：

    A      B    C   D
0   One    1    3   2
1   Two    NaN  6   4
2   Three  3    NaN 8
3   One    4    17  NaN
4   Two    7    NaN 2
5   Three  12   8   15

汇总后返回预期结果：

`df2.sum()`
    A    OneTwoThreeOneTwoThree
    B                        27
    C                        34
    D                        31
    dtype: object

然后使用这个groupby：

df3 = df2.groupby(['A'])[['B', 'C', 'D']].sum()

返回此：

        B   C   D
A           
One     5   20  2
Three   15  8   23
Two     7   6   6

求和返回与求和原始列相同的值：

df3.sum()
B    27
C    34
D    31
dtype: float64

但是，在我的实际数据中，原始值为：

13496 non-null float64
11421 non-null float64
10890 non-null float64
10714 non-null float64

但是，在与groupby上述相同的使用之后.sum()，分组的行总计为：

13021
11071
10568
10408

我在这里错过了一些熊猫警告或陷阱吗？价值如何丢失？显然，这不是一个可以回答的直接编程问题，而是一个熊猫的“内部工作原理”问题。我没有在熊猫文档中看到任何关于此的内容，也没有关于此的任何疑问。

根

您NaN在A列中有任何值吗？这可能会产生您正在描述的行为，因为NaN值在分组时会被丢弃。考虑下面的DataFrame：

     A    B     C      D
0    x  1.0   NaN  100.0
1    x  2.0  21.0  105.0
2    y  NaN  22.0  110.0
3  NaN  4.0  23.0  115.0
4    z  5.0  24.0  120.0
5    z  6.0  25.0    NaN

然后df.sum()产生：

B     18.0
C    115.0
D    550.0
dtype: float64

但df.groupby('A')['B', 'C', 'D'].sum().sum()产生：

B     14.0
C     92.0
D    435.0
dtype: float64

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-2

我来说两句

0 条评论

登录后参与评论

上一篇：live555如何通过rtsp协议发送的h264比特流计算或读取帧速率

熊猫Groupby sum和concatenate

熊猫：PD降低后，Groupby返回错误

熊猫groupby：返回不同的索引

熊猫groupby返回额外索引

熊猫的groupby（）和索引值

熊猫在groupby中设置值

熊猫groupby为零值

熊猫groupby的非缺失值

熊猫groupby给出了错误的值

快速高效的熊猫groupby sum操作

根据熊猫的sum groupby找到主要类别

熊猫groupby.sum（）无法正常工作？

熊猫groupby值并将观测值返回到数据集

熊猫，groupby.agg返回给定的列名

熊猫groupby返回原始MultiIndex上的数据

熊猫从 groupby 和 max 返回辅助列

熊猫groupby datatime索引，可能存在错误

熊猫groupby：每组前3个值

熊猫groupby并计算列的唯一值

熊猫groupby值相差无几

熊猫在groupby函数中计算空值

熊猫groupby，计算每个值的出现次数

熊猫groupby和地图值列表

熊猫groupby并保持最大长度值

熊猫：Groupby计数为列值

熊猫groupby获取月份和年份的值

熊猫groupby并更新为最小值

熊猫，groupby，其中列值大于x

为熊猫中的groupby的组分配值

TOP 榜单

文章

熊猫groupby .sum如何返回错误的值？

熊猫groupby .sum如何返回错误的值？

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何检查字符串输入的格式

检查嵌套列表中的长度是否相同

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何自动选择正确的键盘布局？-仅具有一个键盘布局

如何正确比较 scala.xml 节点？

在令牌内联程序集错误之前预期为 ')'

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

解决类Koin的实例时出错

ES5的代理替代

有什么解决方案可以将android设备用作Cast Receiver？

VBA 自动化错误：-2147221080 (800401a8)

套接字无法检测到断开连接