Python如何从单个列中计算多个平均值，并根据另一列中的值选择要平均的行

129

卡尔·贝克

[编辑：重写问题在底部]

我试图弄清楚如何计算“部分列”平均值和计数，而不是使用所有值。在伪SQL中，我想要SELECT所有值WHERE id = 10，然后= 20，依此类推。我假设有一种不使用for循环的pythonic（pandastic？）方法。

例如：df有3列和数千行：case，id，和value。大小写是唯一的，id可以重复，值是数字。

case    id  value
1       10  100
2       10  500
3       20  200
4       20  150
5       20  125

我要计算值并计算每个值的平均值，id然后将它们放在新列中。。。

case    id  value   n_vals  av_val
1       10  100     2       300
2       10  500
3       20  300     3       200
4       20  150
5       20  150

。。。然后删除case并value为每个ID保留一行（它们现在是唯一的）：

id  n_vals  av_val
10  2       300
20  3       200

我知道如何找到len并mean为整个列，但不知道如何做了这样的部分列。

[重写的问题]：

我在7个变量中具有20000265 obs的df。case是唯一的，Id可以重复。：

case        Id      title           n_words n_chars rating  rating2
20000260    131258  The Pirates     2       11      2.5     2.5
20000261    131258  The Pirates     2       11      3.5     3.5
20000262    131258  The Pirates     2       11      4.5     4.5
20000263    131260  Rentun Ruusu    2       12      3       3
20000264    131260  Rentun Ruusu    2       12      5       5
20000265    131262  Innocence       1       9       4       4

我想计算每个等级的评分和平均评分Id。这些值被添加到DF为n_ratings和av_rating，取代rating和rating2，聚集在一个单独的行，每个Id。我想保留所有其他列，生成如下内容：

case        Id      title           n_words n_chars n_ratings   av_rating
20000260    131258  The Pirates     2       11      3           3.5
20000263    131260  Rentun Ruusu    2       12      2           4
20000265    131262  Innocence       1       9       1           4

基于下面的@ U9_Forward的答案，我已经尝试过：

df = 
    (df.
        groupby('Id', as_index = False).
        agg({'rating':'count', 'rating2':'mean'}).
        # rename(columns = {'rating':'n_ratings', 'rating2':'av_rating'}))
        rename(columns = {'Id':'Id', 'title':'title',
                      'num_words':'num_words', 'num_chars':'num_chars',
                      'rating':'n_ratings', 'rating2':'av_rating'}, axis=1))

然而，这仅保留了3列（Id，n_ratings，av_rating）在中使用的groupby().agg()管，例如：

0   1   49695       3.921240
1   2   22243       3.211977
2   3   12735       3.151040

我尝试在rename()字典中包括所有col名称，但得到了相同的结果。

两个问题：

是否有参数agg()或以其他方式实现预期结果？
我在Jupyter中获得了FutureWarning，并已阅读使用rename()不推荐使用的字典，或者很快就会使用。重命名cols的新首选方式是什么？

U10转发

只需groupby与agg和一起使用rename：

print(df.groupby('id',as_index=False).agg({'case':'count','value':'mean'}).rename({'case':'n_vals','value':'av_val'},axis=1))

输出为：

   id  n_vals  av_val
0  10       2     300
1  20       3     200

编辑：

df[['n_ratings','av_rating']]=df[['Id','title']].join(df.groupby(['Id','title']).agg({'rating':'count','rating2':'mean'}), on=['Id','title'])[['rating','rating2']]
print(df.drop_duplicates(keep='last',subset='Id'))

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-12-21

我来说两句

0 条评论

登录后参与评论

上一篇：有什么办法解决错误HTTP ERROR 503？

Python如何从单个列中计算多个平均值，并根据另一列中的值选择要平均的行

Python如何从单个列中计算多个平均值，并根据另一列中的值选择要平均的行

Linux的官方Adobe Flash存储库是否已过时？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

如何检查字符串输入的格式

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

Modbus Python施耐德PM5300

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

用日期数据透视表和日期顺序查询

检查嵌套列表中的长度是否相同

Java Eclipse中的错误13，如何解决？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

如何自动选择正确的键盘布局？-仅具有一个键盘布局

ES5的代理替代

在令牌内联程序集错误之前预期为 ')'

有什么解决方案可以将android设备用作Cast Receiver？

套接字无法检测到断开连接

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

应用发明者仅从列表中选择一个随机项一次

在Windows 7中无法删除文件（2）

ggplot：对齐多个分面图-所有大小不同的分面