在过滤的字符上拆分数据框并创建多个新列

Jonas 发表于 Dev

乔纳斯

我有一个数据预处理问题，这在我的工作中很常见。我通常有两个文件，最后我要对其进行大的匹配操作。通常这是一个两步过程，第一步涉及制作第一个文件的“已清理”数据帧，第二步涉及与较大数据帧的第二个文件进行匹配（vlookup）。在这个问题的第一步中，我需要帮助。我在下面创建了一个简单的示例进行处理。我的简化数据框：

c1 <- 1:15
c2 <- c("Valuelabels", "V1", "1", "2", "Valuelabels", "V2", "1", "2", "3", "Valuelabels", "V3", "1", "2", "3", "4")
c3 <- c("", "", "Male", "Female", "", "", "Married", "Single", "Other", "", "", "SingleWithChildren", "SingleWithoutChildren","MarriedWithChildren", "PartneredWithChildren") 

df <- data.frame(row.names =c1,c2,c3)
df

            c2                    c3
1  Valuelabels                      
2           V1                      
3            1                  Male
4            2                Female
5  Valuelabels                      
6           V2                     
7            1               Married
8            2                Single
9            3                 Other
10 Valuelabels                      
11          V3                      
12           1    SingleWithChildren
13           2 SingleWithoutChildren
14           3   MarriedWithChildren
15           4 PartneredWithChildren

现在，我想在第一列的“ Valuelabel”字符串上拆分数据框，最后得到一个新的数据框，如下所示：

   V1 V1_match V2 V2_match V3              V3_match
1:  1     Male  1  Married  1    SingleWithChildren
2:  2   Female  2   Single  2 SingleWithoutChildren
3: NA           3    Other  3   MarriedWithChildren
4: NA          NA           4 PartneredWithChildren

最后，我想创建一个数据框，其中以V1作为列名，并将匹配的值作为新列，在我的示例V1_match ...中命名为V2到V3，以此类推。

在将其与较大的数据帧匹配之前，此数据帧将结束我的第一步。

非常感谢您的帮助。

大卫·阿伦堡（David Arenburg）

这是一个可能的data.table解决方案

library(data.table) # v 1.9.5
setDT(df)[, indx := c2[2L], by = cumsum(c2 == "Valuelabels")]
df2 <- df[!grepl("\\D", c2)][, indx2 := seq_len(.N), by = indx]
dcast(df2, indx2 ~ indx, value.var = c("c2", "c3"))
#    indx2 V1_c2 V2_c2 V3_c2  V1_c3   V2_c3                 V3_c3
# 1:     1     1     1     1   Male Married    SingleWithChildren
# 2:     2     2     2     2 Female  Single SingleWithoutChildren
# 3:     3    NA     3     3     NA   Other   MarriedWithChildren
# 4:     4    NA    NA     4     NA      NA PartneredWithChildren

您需要安装data.tablev> 1.9.5才能使用

library(devtools)
install_github("Rdatatable/data.table", build_vignettes = FALSE)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-03-30

我来说两句

0 条评论

登录后参与评论

上一篇：C＃代码中的youtube API

拆分数据框以创建新列

在过滤元素上添加数据框计算列

在 PySpark 中的连字符分隔符上拆分数据框列

R按列中的新行拆分数据框

如何转换列中的字符串列表并通过相同的字符串拆分数据框以具有多个？

从数据框的过滤列创建新数据框

如何拆分数据框并将拆分的部分附加到新列中？

根据列值拆分数据框

拆分数据框的一列

按内容拆分数据框列

如何根据字符拆分数据框列并保留该字符？

拆分数据框的数据框并插入一列

Python Pandas数据框列在拆分数据部分上未正确更新

如何拆分数据框中的列并将每个值存储为新行（在熊猫中）？

通过在 Pandas 的另一列中拆分字符串来创建新的数据框列

熊猫为每个字符拆分数据框列

按字符的第 n 个实例拆分数据框中的列

如何根据Python中的字符位置拆分数据框列？

从多个列中创建虚拟变量并创建新的数据框

从不同的列过滤 NA 并创建新的数据框

使用数据属性在过滤上创建其他div

根据多个列中的值创建新的数据框列

在 R wrt 列数据类中拆分数据框

在python中拆分数据框中的字符串

通过从现有数据框中过滤字符来创建新数据框

拆分数据帧中与特定列配对的多个列

使用dfList在多个数据框中创建新列

基于多个条件语句熊猫数据框创建新列

以迭代方式在数据框中创建多个新列

TOP 榜单

文章

在过滤的字符上拆分数据框并创建多个新列

在过滤的字符上拆分数据框并创建多个新列

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用