对数据框进行条件以创建新的数据框-Python

约翰·杜

我有一个数据框如下。

    id type  value     Date name
0  111    a    100  2018/11   x1
1  112    b    200  2018/12   x2
2  113    a    300  2018/08   x3
3  113    a    200  2018/08   x4
4  114    a    300  2017/12   x4
5  114    a    500  2018/12   x5
6  114    b    500  2018/12   x5

我想基于4个条件创建一个数据框。

如果id唯一，并输入！= b，则换行并添加case1列
如果id唯一且类型= b，则在名称唯一的情况下采用行并添加case2列
如果id不是唯一的，并输入！= b，则汇总具有相同日期的行，求和，并添加case3列
如果id不唯一且类型= b，则聚合具有相同date的行，将忽略b类型的行的值求和，然后添加case4列

新的数据框如下

    id type  value     Date   case
0  111    a    100  2018/11  case1
1  112    b    200  2018/12  case2
2  113    a    500  2018/08  case3
3  114    a    300  2017/12  case4
4  114    b    500  2018/12  case4

我尝试创建列“案例”作为我的第一步：

对于我在df.id.unique（）中：

if 'b' in df.Type:

    df['Case']= 'case 1'

else:

    df['Case']= 'case 2' else:

其他：

if 'b' in df.Type:

    df['Case']= 'case 3'

else:

    df['Case']= 'case 4'

我是大熊猫操作的新手，因此建议将不胜感激

亚历克斯

您可以使用此：

# groupby and add group sizes
df['id_count'] = df.groupby('id')['id'].transform('size')

# conditions for np.select
conditions = [
    (df['id_count'].eq(1) & df['type'].ne('b')),
    (df['id_count'].eq(1) & df['type'].eq('b')),
    (df['id_count'].ne(1) & df['type'].ne('b')),
    (df['id_count'].ne(1) & df['type'].eq('b'))]
# choices for np.select
choices = ['case1', 'case2', 'case3', 'case4']
# Add case column
df['case'] = np.select(conditions, choices, default=None)

# next grouping
grouping = ['id', 'type', 'Date', 'case']
# replace value column
df['value'] = df.groupby(grouping)['value'].transform('sum')

# drop duplicate rows
df = df.drop_duplicates(subset=grouping, keep='first')
# remove extra columns
df = df.drop(['name', 'id_count'], axis='columns')

一步步

首先，你可以创建一个groupby对的id列，如下所示：

gb = df.groupby('id')

然后，您可以使用它来计算id发生的次数：

df['id_count'] = gb['id'].transform('size')

df 现在看起来像这样：

    id type  value     Date name  id_count
0  111    a    100  2018/11   x1         1
1  112    b    200  2018/12   x2         1
2  113    a    300  2018/08   x3         2
3  113    a    200  2018/08   x4         2
4  114    a    300  2017/12   x4         3
5  114    a    500  2018/12   x5         3
6  114    b    500  2018/12   x5         3

现在，您可以使用以下np.select条件：

conditions = [
    (df['id_count'].eq(1) & df['type'].ne('b')),
    (df['id_count'].eq(1) & df['type'].eq('b')),
    (df['id_count'].ne(1) & df['type'].ne('b')),
    (df['id_count'].ne(1) & df['type'].eq('b'))]
choices = ['case1', 'case2', 'case3', 'case4']
df['case'] = np.select(conditions, choices, default=None)

导致：

    id type  value     Date name  id_count   case
0  111    a    100  2018/11   x1         1  case1
1  112    b    200  2018/12   x2         1  case2
2  113    a    300  2018/08   x3         2  case3
3  113    a    200  2018/08   x4         2  case3
4  114    a    300  2017/12   x4         3  case3
5  114    a    500  2018/12   x5         3  case3
6  114    b    500  2018/12   x5         3  case4

通过使用grouping（列的列表）创建另一个组；然后sum将value这些组中的value列替换为该列。

grouping = ['id', 'type', 'Date', 'case']
df['value'] = df.groupby(grouping)['value'].transform('sum')

导致：

    id type  value     Date name  id_count   case
0  111    a    100  2018/11   x1         1  case1
1  112    b    200  2018/12   x2         1  case2
2  113    a    500  2018/08   x3         2  case3
3  113    a    500  2018/08   x4         2  case3
4  114    a    300  2017/12   x4         3  case3
5  114    a    500  2018/12   x5         3  case3
6  114    b    500  2018/12   x5         3  case4

最后，drop-duplicates使用grouping之前的列表：

df = df.drop_duplicates(subset=grouping, keep='first')

给予：

    id type  value     Date name  id_count   case
0  111    a    100  2018/11   x1         1  case1
1  112    b    200  2018/12   x2         1  case2
2  113    a    500  2018/08   x3         2  case3
4  114    a    300  2017/12   x4         3  case3
6  114    b    500  2018/12   x5         3  case4

您可以使用删除多余的列drop：

df = df.drop(['name', 'id_count'], axis='columns')

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-12-15

我来说两句

0 条评论

登录后参与评论

上一篇：如何在Kotlin的forEach上引用外部

对数据框进行条件以创建新的数据框-Python

对数据框进行条件以创建新的数据框-Python

一步步

隐藏发件人没有短信PHP

材质UI垂直滑块。如何改变在垂直材料UI滑块导轨的厚度（反应）

在Windows 7中无法删除文件（2）

HttpClient中的角度变化检测

Azure VM启动/停止日志

如何在 Vb.net 中使用函数返回多个值

Powerpoint-条形长度错误的堆积条形图

最新歌剧断断续续的快速拨号和渲染错误

Mac OS X更新后的GRUB 2问题

需要公式以vlookup逗号分隔单个单元格中的值

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

ggplot：对齐多个分面图-所有大小不同的分面

OS X-为什么我需要打开WiFi才能确定最近的位置

用日期数据透视表和日期顺序查询

Java Eclipse中的错误13，如何解决？

如何在Django中使用UUID

加载Microsoft Visual菜单时出现问题

具有if条件的SQL UPDATE

从JSON到JSONL的Python转换

如何在Kod中更改字体？

共享图像将路径放入地址