如何根据单独数据框中的两列结果在数据框中创建新列？

evan 发表于 Dev

埃文

我有一个df1：

   ZIP Weekend Sales
1 60657       1    2
2 60657       1    1
3 60657       1    1
4 60641       0    2
5 60641       0    NA
6 60607       0    0
7 60607       0    1
8 60628       0    1

还有一个单独的df2：

    ZCTA   ZIP Population
6  60657 60657      82739
7  60609 60609      64906
10 60612 60612      33472
13 60641 60641     40603
14 60616 60616      48433
15 60607 60607      84155
16 60628 60628      92084
17 60619 60619      63825

我想对df2附加两列。一栏将是SalesSum。我想总结每个邮政编码的总销售得分，如下所示：

输出：

    ZCTA   ZIP Population   Sales
6  60657 60657      82739    4
7  60609 60609      64906    0
10 60612 60612      33472    0 
13 60641 60641      40603    2
14 60616 60616      48433    0
15 60607 60607      84155    1
16 60628 60628      92084    1
17 60619 60619      63825    0

怎么做？

丹尼尔·奥（Daniel O）

在Base-R中

SalesByZip <- sapply(split(df1$Sales,df1$ZIP), sum)
df2$Sales <- lapply(df2$ZIP, function(x) SalesByZip[grepl(x, names(SalesByZip))] )


> df2
    ZCTA   ZIP Population Sales
6  60657 60657      82739     4
7  60609 60609      64906      
10 60612 60612      33472      
13 60641 60641      40603     2
14 60616 60616      48433      
15 60607 60607      84155     1
16 60628 60628      92084     1
17 60619 60619      63825

编辑：

如果您希望零实际上位于列表中，只需添加

df2$Sales[sapply(df2$Sales,length)==0] <- 0


> df2
    ZCTA   ZIP Population Sales
6  60657 60657      82739     4
7  60609 60609      64906     0
10 60612 60612      33472     0
13 60641 60641      40603     2
14 60616 60616      48433     0
15 60607 60607      84155     1
16 60628 60628      92084     1
17 60619 60619      63825     0

说明：

SalesByZip <- sapply(split(df1$Sales,df1$ZIP), sum)在这里，我们使用来分割df1中的数据。split(df1$Sales,df1$ZIP)这仅返回用邮政编码分隔的销售额。然后将其包裹起来，sapply(..., sum)将每个分割相加。

现在，lapply(df2$ZIP, ... )这将一次将一行代码传递df2$ZIP到我们的函数中。function(x) SalesByZip[grepl(x, names(SalesByZip))]该函数正在访问SalesByZip与我们传递到函数中的ZIP匹配的对应值。

发表评论：

以下解决方案添加了zereo，但没有上面添加的行，并确保class(df2$Sales)="numeric"

SalesByZip <- sapply(split(df1$Sales,df1$ZIP), sum)
df2$Sales <- sapply(df2$ZIP, function(x){x<-SalesByZip[grepl(x, names(SalesByZip))];ifelse(length(x)==0,0,x)} )

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-23

我来说两句

0 条评论

登录后参与评论

上一篇：NUnit：在断言中使用对象之前，是否应该检查对象是否为null？

如何根据单独数据框中的两列结果在数据框中创建新列？

如何根据单独数据框中的两列结果在数据框中创建新列？

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID