使用R＆data.table OR HIVE用NA替换\\ N

信奉者

我有一些数据的形式：

          V1   V2  V3         V4  V5         V6   V7  V8  V9 V10 V11
 1. 14342667 4336 1.5 2015-10-03 \\N 2015-10-03  804 2.0 2.0   0 3.0
 2. 14342667 4336 0.8 2015-06-13 \\N 2015-06-11 2912 2.0 2.0   0 \\N
 3. 14342667 4336 0.5 2016-01-02 \\N 2015-12-27 1618 0.0 0.0   1 \\N
 4. 14342667 4336 0.7 2015-08-22 \\N 2015-08-22 1780 2.0 2.0   0 \\N
 5. 14342667 4336 0.9 2015-02-21 1.2 2015-02-17 1548 0.0 0.0   1 \\N
 6. 14342667 4336 1.0 2015-08-08 \\N 2015-08-06 1538 2.0 2.0   0 2.25
 7. 14342667 4336 0.9 2015-03-28 \\N 2015-03-24 2129 7.0 7.0   0 \\N
 8. 14342667 4336 0.8 2015-04-11 \\N 2015-04-11 2316 1.0 2.0   0 \\N

我想\\N使用R和data.table将NA的实例替换为NA。当我将数据收集到HIVE中时，我把这些留在了空白处。

我已经尝试过类似的事情，data1 <- data1[, lapply(.SD, recode, '"\\N"=NA')]并data1 <- data1[, lapply(.SD, recode, '"\N"=NA')]使用了CAR包，该包可以很好地用于其他替换，但在当前情况下失败并出现错误：

FUN（X [[1L]]，...）中的错误：在重新编码项中：“ \ N” = NA消息：错误：'\ N'是无法识别的以“” \ N“开头的字符串的转义

我也读过类似的解决方案，x[x=="\\N"] <- NA但是我不能成功地使用data.table来应用那些解决方案。我也研究了HIVE表端解决方案，但显然regexp_replace仅适用于一列，而不适用于所有列中的所有实例。

阿克伦

我们可以找出具有此模式的列，grep然后as.numeric在这些列上使用

library(data.table)
nm1 <- names(df1)[colSums(sapply(df1, grepl, pattern = "\\\\"))!=0]
setDT(df1)[,(nm1):= lapply(.SD, as.numeric) , .SDcols= nm1]
df1
#         V1   V2  V3         V4  V5         V6   V7 V8 V9 V10  V11
#1: 14342667 4336 1.5 2015-10-03  NA 2015-10-03  804  2  2   0 3.00
#2: 14342667 4336 0.8 2015-06-13  NA 2015-06-11 2912  2  2   0   NA
#3: 14342667 4336 0.5 2016-01-02  NA 2015-12-27 1618  0  0   1   NA
#4: 14342667 4336 0.7 2015-08-22  NA 2015-08-22 1780  2  2   0   NA
#5: 14342667 4336 0.9 2015-02-21 1.2 2015-02-17 1548  0  0   1   NA
#6: 14342667 4336 1.0 2015-08-08  NA 2015-08-06 1538  2  2   0 2.25
#7: 14342667 4336 0.9 2015-03-28  NA 2015-03-24 2129  7  7   0   NA
#8: 14342667 4336 0.8 2015-04-11  NA 2015-04-11 2316  1  2   0   NA

数据

df1 <- structure(list(V1 = c(14342667L, 14342667L, 14342667L, 14342667L, 
14342667L, 14342667L, 14342667L, 14342667L), V2 = c(4336L, 4336L, 
4336L, 4336L, 4336L, 4336L, 4336L, 4336L), V3 = c(1.5, 0.8, 0.5, 
0.7, 0.9, 1, 0.9, 0.8), V4 = c("2015-10-03", "2015-06-13", "2016-01-02", 
"2015-08-22", "2015-02-21", "2015-08-08", "2015-03-28", "2015-04-11"
), V5 = c("\\\\N", "\\\\N", "\\\\N", "\\\\N", "1.2", "\\\\N", 
"\\\\N", "\\\\N"), V6 = c("2015-10-03", "2015-06-11", "2015-12-27", 
"2015-08-22", "2015-02-17", "2015-08-06", "2015-03-24", "2015-04-11"
), V7 = c(804L, 2912L, 1618L, 1780L, 1548L, 1538L, 2129L, 2316L
), V8 = c(2, 2, 0, 2, 0, 2, 7, 1), V9 = c(2, 2, 0, 2, 0, 2, 7, 
2), V10 = c(0L, 0L, 1L, 0L, 1L, 0L, 0L, 0L), V11 = c("3.0", "\\\\N", 
"\\\\N", "\\\\N", "\\\\N", "2.25", "\\\\N", "\\\\N")), .Names = c("V1", 
"V2", "V3", "V4", "V5", "V6", "V7", "V8", "V9", "V10", "V11"), 
 class = "data.frame", row.names = c("1.", 
"2.", "3.", "4.", "5.", "6.", "7.", "8."))

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-04-17

我来说两句

0 条评论

登录后参与评论

上一篇：万一发生硬件故障，如何在Redis集群中恢复特定节点的哈希槽？

TOP 榜单

文章

使用R＆data.table OR HIVE用NA替换\\ N

使用R＆data.table OR HIVE用NA替换\\ N

数据

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Java Eclipse中的错误13，如何解决？

在Windows 7中无法删除文件（2）

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

套接字无法检测到断开连接

带有错误“ where”条件的查询如何返回结果？

有什么解决方案可以将android设备用作Cast Receiver？

Mac OS X更新后的GRUB 2问题

ggplot：对齐多个分面图-所有大小不同的分面

验证REST API参数

如何从视图一次更新多行（ASP.NET - Core）

尝试反复更改屏幕上按钮的位置 - kotlin android studio

计算数据帧中每行的NA

检索角度选择div的当前值

离子动态工具栏背景色

UITableView的项目向下滚动后更改颜色，然后快速备份

VB.net将2条特定行导出到DataGridView

蓝屏死机没有修复解决方案

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException