从spark数据框中的字符串列中提取单词

Sree51 发表于 Dev

Sree51

我在spark数据框中有一个带有文本的列。

我想提取所有以特殊字符开头的单词，'@'并regexp_extract从该文本列的每一行中使用。如果文本包含多个以'@'它开头的单词，则仅返回第一个。

我正在寻找提取与我的火花模式匹配的多个单词。

data_frame.withColumn("Names", regexp_extract($"text","(?<=^|(?<=[^a-zA-Z0-9-_\.]))@([A-Za-z]+[A-Za-z0-9_]+)",1).show

输入样例： @always_nidhi @YouTube no i dnt understand bt i loved the music nd their dance awesome all the song of this mve is rocking

样本输出： @always_nidhi,@YouTube

阿米特·库玛（Amit Kumar）

您可以在spark中创建udf函数，如下所示：

import java.util.regex.Pattern
import org.apache.spark.sql.functions.udf
import org.apache.spark.sql.functions.lit

def regexp_extractAll = udf((job: String, exp: String, groupIdx: Int) => {
      println("the column value is" + job.toString())
      val pattern = Pattern.compile(exp.toString)
      val m = pattern.matcher(job.toString)
      var result = Seq[String]()
      while (m.find) {
        val temp = 
        result =result:+m.group(groupIdx)
      }
      result.mkString(",")
    })

然后按如下所示调用udf：

data_frame.withColumn("Names", regexp_extractAll(new Column("text"), lit("@\\w+"), lit(0))).show()

在上方，您的输出如下：

+--------------------+
|               Names|
+--------------------+
|@always_nidhi,@Yo...|
+--------------------+

根据您在问题中发布的输出，我使用了正则表达式。您可以对其进行修改以适合您的需求。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-10-19

我来说两句

0 条评论

登录后参与评论

上一篇：ReactJS：如何更改Material Ui Autocomplete的占位符字体大小？

从spark数据框中的字符串列中提取单词

从spark数据框中的字符串列中提取单词

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何正确比较 scala.xml 节点？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

在令牌内联程序集错误之前预期为 ')'

数据表中有多个子行，asp.net核心中来自sql server的数据

VBA 自动化错误：-2147221080 (800401a8)

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何在JavaScript中获取数组的第n个元素？

检查嵌套列表中的长度是否相同

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

ES5的代理替代

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

如何监视应用程序而不是单个进程的CPU使用率？

如何检查字符串输入的格式

解决类Koin的实例时出错

如何自动选择正确的键盘布局？-仅具有一个键盘布局