如何创建UDF以在数组列中查找索引

里贾纳

我有一张桌子，如下所示：

val question = sqlContext.createDataFrame(Seq((1, Seq("d11","d12","d13")), (2, Seq("d21", "d22", "")))).toDF("Id", "Dates")
+---+---------------+
| Id|          Dates|
+---+---------------+
|  1|[d11, d12, d13]|
|  2|   [d21, d22, ]|
+---+---------------+

“日期”列包含一个字符串数组。我想创建一个udf，如果数组包含目标字符串，该udf可以返回索引。我试图这样写一个udf：

def indexOf(s: String) = udf((n: Array[String]) => if (n.contains(s)) 
n.indexOf(s) else -1)

question.withColumn("index", indexOf("d11")(question("Dates"))).show()

但是，我得到了如下错误信息：

org.apache.spark.SparkException: Failed to execute user defined function($anonfun$indexOf$1: (array<string>) => int)

这里出什么问题了吗？

更新：我还发现了这样的错误信息：

Caused by: java.lang.ClassCastException: scala.collection.mutable.WrappedArray$ofRef cannot be cast to [Ljava.lang.String;

所以我将udf修改为：

def indexOf(s: String) = udf((n: Seq[String]) => if (n.contains(s)) n.indexOf(s) else -1)

将“ Array [String]”更改为“ Seq [String]”，它现在可以正常工作〜嗨，Nader Hadji Ghanbari，谢谢您的建议〜

狗

在Spark中，该数组表示为WrappedArray，类似于带有Wrapper的数组。要开始工作，您可以将签名更改为Seq，WrappedArray或List。

def indexOf(s: String) = udf((n: Seq[String]) => 
    if (n.contains(s)) n.indexOf(s) else -1)

要么

def indexOf(s: String) = udf((n: WrappedArray[String]) => 
    if (n.contains(s)) n.indexOf(s) else -1)

要么

def indexOf(s: String) = udf((n: List[String]) => 
    if (n.contains(s)) n.indexOf(s) else -1)

希望这可以帮助！

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-6

我来说两句

0 条评论

登录后参与评论

上一篇：如何在npm init中回答git提示以获取本地回购

如何创建UDF以在数组列中查找索引

如何创建UDF以在数组列中查找索引

Linux的官方Adobe Flash存储库是否已过时？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

如何检查字符串输入的格式

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

Modbus Python施耐德PM5300

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

用日期数据透视表和日期顺序查询

检查嵌套列表中的长度是否相同

Java Eclipse中的错误13，如何解决？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

如何自动选择正确的键盘布局？-仅具有一个键盘布局

ES5的代理替代

在令牌内联程序集错误之前预期为 ')'

有什么解决方案可以将android设备用作Cast Receiver？

套接字无法检测到断开连接

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

应用发明者仅从列表中选择一个随机项一次

在Windows 7中无法删除文件（2）

ggplot：对齐多个分面图-所有大小不同的分面