从Scala中的DataFrame修剪前导0

abssab 发表于 Dev

阿布萨卜

我有一个数据框：

 | subcategory | subcategory_label | category  |
 | 00EEE       | 00EEE FFF         | Drink     |
 | 0000EEE     | 00EEE FFF         | Fruit     |
 | 0EEE        | 000EEE FFF        | Meat      |

从中，我需要从Dataframe的列中删除前导0，并需要这样的结果

| subcategory | subcategory_label | category  |
| EEE         | EEE FFF           | Drink     |
| EEE         | EEE FFF           | Fruit     |
| EEE         | EEE FFF           | Meat      |

到目前为止，我可以使用以下命令从一列中删除前导0

df.withColumn("subcategory ", regexp_replace(df("subcategory "), "^0*", "")).show

如何一次性删除数据帧中的前导0？

vert

以此作为提供的数据框：

+-----------+-----------------+--------+
|subcategory|subcategory_label|category|
+-----------+-----------------+--------+
|0000FFFF   |0000EE 000FF     |ABC     |
+-----------+-----------------+--------+

您可以regexp_replace为所有列创建一个。就像是：

val regex_all = df.columns.map( c => regexp_replace(col(c), "^0*", "" ).as(c) )

然后使用，select因为它需要一个类型为varargs的变量Column：

df.select(regex_all :_* ).show(false)
+-----------+-----------------+--------+
|subcategory|subcategory_label|category|
+-----------+-----------------+--------+
|FFFF       |EE 000FF         |ABC     |
+-----------+-----------------+--------+

编辑：

定义一个函数来返回regexp_replaced序列很简单：

/**
  * @param origCols total cols in the DF, pass `df.columns`
  * @param replacedCols `Seq` of columns for which expression is to be generated
  * @return `Seq[org.apache.spark.sql.Column]` Spark SQL expression
  */
def createRegexReplaceZeroes(origCols : Seq[String], replacedCols: Seq[String] ) = {
    origCols.map{ c => 
        if(replacedCols.contains(c)) regexp_replace(col(c), "^0*", "" ).as(c) 
        else col(c)
    }
}

此函数将返回一个 Array[org.apache.spark.sql.Column]

现在，将要替换的列存储在Array中：

val removeZeroes = Array( "subcategory", "subcategory_label" )

并且，然后使用removeZeroes作为参数调用该函数。这将返回在中regexp_replace可用列的语句removeZeroes

df.select( createRegexReplaceZeroes(df.columns, removeZeroes) :_* )

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-28

我来说两句

0 条评论

登录后参与评论

上一篇：在RecyclerAdapter中的对象上获取getItem遇到麻烦

Oracle-修剪和前导0

修剪黑斑羚中的前导零

如何在Hive中修剪前导零

修剪MS Access SQL中的前导零

修剪Awk中的前导和尾随空格

修剪字符串中的前导或尾随字符？

修剪SQL Server中的前导零的更好技术？

避免 `{{- ... }}` 在 Golang 的文本/模板中修剪额外的前导空格？

在 C# 中修剪前导字符串和零

检查DataFrame中的前导零

在C中打印前导0？

在sed中添加前导0

在R中添加前导0

从特定字段中删除前导0

删除列表中的前导s（s（0））

Excel，从IP地址中删除前导0

从Powershell的参数中删除前导0

在SQL Server查询中删除前导0

删除特定的csv文件中的前导0

如何从数字中删除前导0？

省略char中的前导0并追加

修剪一列中逗号分隔值中的前导零

从C中的fgets（）修剪尾随\ 0

Java-修剪字符串中的前导或尾随字符？

如何修剪web2py输入字段中的前导空格和尾随空格？

在数据阶段中不使用转换阶段的情况下修剪前导和尾随空格

修剪数据框列中的前导/后缀空格，列名作为变量出现

如何在SQL Server的级联字段中修剪每个值的前导零

修剪字符串中特定的前导和尾随字符

TOP 榜单

文章

从Scala中的DataFrame修剪前导0

从Scala中的DataFrame修剪前导0

Linux的官方Adobe Flash存储库是否已过时？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

如何检查字符串输入的格式

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

Modbus Python施耐德PM5300

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

用日期数据透视表和日期顺序查询

检查嵌套列表中的长度是否相同

Java Eclipse中的错误13，如何解决？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

如何自动选择正确的键盘布局？-仅具有一个键盘布局

ES5的代理替代

在令牌内联程序集错误之前预期为 ')'

有什么解决方案可以将android设备用作Cast Receiver？

套接字无法检测到断开连接

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

应用发明者仅从列表中选择一个随机项一次

在Windows 7中无法删除文件（2）

ggplot：对齐多个分面图-所有大小不同的分面