在 R 中不相等的列名上合并大数据框

宠物小精灵

我在 R 中有两个数据框，其中一个很大（比如 160 个变量的 150000 个观察值）和一个较小的（5 个变量的 76 个观察值）。

大数据框中的变量之一是国家保存为字符串，而另一个变量由各个国家和特定特征组成。现在，我想通过为每个特征添加列并将观察结果与其相应国家/地区的特征联系起来，在我的新数据框中构建新变量。但是我有几个问题：

一个问题是，并非所有国家/地区都在较小的数据框中表示，我想从第二个未表示的国家/地区中删除第一帧中的观察结果。
第二个问题是，我似乎无法使用标准合并功能，因为第二个数据帧的格式如下：

Country Var1        Var2        Var3        Var4        Var5
NIC     -0.61252    -0.54723    -0.41597    -0.38825    -0.17819
RWA     -0.60603    -0.28969    -0.57998    -0.05933    -0.14199
GEO     -0.48543    -0.08132    0.56275     -0.25436    0.62782

虽然我的第一个数据框按以下方式格式化

CNTRY Var1 Var2 etc

似乎我需要自己硬编码一个函数？

彼得·史密特纳尔

如果我们称大的 df1 和小的 df2，你应该能够做一个满足你要求的连接。如果我正确理解您的问题，您需要一个包含多行（接近 150k）的数据框，每行都附加了国家/地区属性。但是您想删除没有相应国家/地区的 150k 行中的任何一行。

正如@aurelianoguedes 所建议的那样，您应该立即进行内部联接，这样可以消除大数据框中在小 df 中没有匹配项的任何行。

df.merged = dplyr::inner_join(df1, df2, by=c('Country' = 'CNTRY'))

带有过滤器 + left_join 的旧解决方案：

df.merged = df1 %>%
  filter(Country %in% df2$CNTRY) %>%
  left_join(df2, by=c('Country' = 'CNTRY'))

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-07-18

我来说两句

0 条评论

登录后参与评论

上一篇：從某個位置開始檢查字符串是否與給定的字符串匹配 javascript

TOP 榜单

文章

在 R 中不相等的列名上合并大数据框

在 R 中不相等的列名上合并大数据框

Android Studio Kotlin：提取为常量

IE 11中的FormData未定义

计算数据帧R中的字符串频率

如何在R中转置数据

如何使用Redux-Toolkit重置Redux Store

Excel 2016图表将增长与4个参数进行比较

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

OpenCv：改变 putText() 的位置

ActiveModelSerializer仅显示关联的ID

算术中的c ++常量类型转换

如何开始为Ubuntu开发

将加号/减号添加到jQuery菜单

去噪自动编码器和常规自动编码器有什么区别？

获取并汇总所有关联的数据

OpenGL纹理格式的颜色错误

在 React Native Expo 中使用 react-redux 更改另一个键的值

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

TreeMap中的自定义排序

Redux动作正常，但减速器无效

如何对treeView的子节点进行排序