mean（）和sum（）/ n（）结果不匹配

NelnewR

我正在通过R进行数据科学练习，以自学R，当试图为同一问题找到不同的解决方案时，我遇到了令我困惑的结果。

我加载了以下软件包：

library(nycflights13)
library(tidyverse)

问题是：查看每天取消的航班数（flights数据集）。有模式吗？取消航班的比例与平均延误有关吗？

我找到了一个很好地描述模式的解决方案：

flights %>%
 group_by(year, month, day) %>%
 summarize(cancelled = mean(is.na(arr_delay)) , avg_delay = mean(arr_delay, na.rm = TRUE)) %>%
 ggplot(mapping = aes(x = avg_delay, y = cancelled)) +
 geom_point(alpha=0.5) + 
 geom_smooth(se=FALSE)

下面的代码（交换mean()用sum()/n()的cancelled航班）给出了完全一样的画面：

flights %>%
 group_by(year, month, day) %>%
 summarize(cancelled = sum(is.na(arr_delay))/n() , avg_delay = mean(arr_delay, na.rm = TRUE)) %>%
 ggplot(mapping = aes(x = avg_delay, y = cancelled)) +
 geom_point(alpha=0.5) + 
 geom_smooth(se=FALSE)

但是，当我对进行相同操作时avg_delay，图片将发生变化：

flights %>%
  group_by(year, month, day) %>%
  summarize(cancelled = sum(is.na(arr_delay))/n() , avg_delay = sum(arr_delay, na.rm = TRUE)/n()) %>%
  ggplot(mapping = aes(x = avg_delay, y = cancelled)) +
  geom_point(alpha=0.5) + 
  geom_smooth(se=FALSE)

我希望所有表达式都能给出相同的结果。我的想法是有时会考虑缺失值，有时不会考虑缺失值，因此画面会发生变化，但是我缺乏R知识来测试差异。谁能建议我需要做些什么，以弄清差异的来源？

这是因为使用meanwithna.rm = TRUE将仅考虑那些not的行NA。因此长度将不等于n()！

考虑例如在您的最后一个示例中，使用

avg_delay = sum(arr_delay, na.rm = TRUE)/sum(!is.na(arr_delay))

将产生与上述两种方法完全相同的结果

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-23

我来说两句

0 条评论

登录后参与评论

上一篇：使用cmake版本3.10的ccmake

iperf和iptraf结果不匹配

mean（）和sum（）/ n（）结果不匹配

mean（）和sum（）/ n（）结果不匹配

隐藏发件人没有短信PHP

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

在浏览器中请求URL时会发生什么？

flask-admin 如何自定义删除按钮

材质UI垂直滑块。如何改变在垂直材料UI滑块导轨的厚度（反应）

用日期数据透视表和日期顺序查询

Jqgrid：多级别组摘要

java io ioexception无法解析服务器地址解析器的响应

Swift如何使用Base64Url编码JWT标头和有效负载之类的json对象

sshd AllowGroups组未授予访问权限

jQuery无限滚动固定div中的滚动

android 背部按下

Flexbox CSS 对齐属性环境惰性？

为什么随机森林中的平均降低基尼系数取决于人口规模？

ClickHouse 创建临时表

为什么PlusShare.Builder setRecipients方法不起作用？

如何在Android中识别MICR代码

PyQt4.QtCore模块无法向sip模块注册

正则表达式，用于查找所有以任何字母开头和数字开头的文件

是否可以通过编程方式对很多动画进行重新着色？

机器密钥生成