按向量元素对数据框进行排序

鲁迪·弗博文

我使用Apache Spark实现了此数据帧，如下所示：

id      vector
1       [0.456,0.789]
2       [0.123,0.356]
...

我想通过该向量的第二个元素对该数据帧进行排序。我已经准备好了这样的东西：

val sortedDF = df.sort(desc("vector"))

当然，这会导致一个异常：

cannot resolve 'probability DESC' due to data type mismatch: cannot sort data type vector;

我似乎找不到如何在我的排序函数中指定向量的第二个元素。

有任何想法吗？

谢谢

更新此数据框最多可容纳300万行，因此我不知道创建具有ID并且仅对向量的第二个元素进行排序的新数据框是否有效。

零323

你不能直接做，而是有可能使用UDF转换vector到array并提取要排序各个元素：

import org.apache.spark.mllib.linalg.{Vector, Vectors}

val to_array = udf((v: Vector) => v.toDense.values)

val df = Seq("[0.0,  1.0]", "[1.0, 0.0]").map(Vectors.parse(_))
  .zipWithIndex
  .toDF("vector", "idx")

df.orderBy(to_array($"vector"))
df.orderBy(to_array($"vector").getItem(1).desc)

如果vector很大，并且您打算仅访问单个元素，则直接进行操作会更有效：

val apply_vec = udf((v: Vector, i: Int) => Try(v(i)).toOption)

df.orderBy(apply_vec($"vector", lit(1)))

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-04-13

我来说两句

0 条评论

登录后参与评论

上一篇：编写Haskell函数以计算函数的n次幂？

如何按多个列对数据框进行排序

按组中的位置对数据框进行排序，然后按该组

按字符串长度对数据框进行排序

如何按不在数据框中的数组对数据框进行排序

按NaN计数的降序对数据框的行进行排序

自然排序以按列名对数据框的列进行排序

按列对数据框多索引级别进行排序

如何按降序对数据框进行排序

熊猫按逻辑日对数据框进行排序

按多个变量对数据框进行排序

按R中的ALL列对数据框进行排序

按因子对数据框列进行排序

按字符和日期列对数据框进行排序

按数组元素对数组进行排序

如何按R中的列名对数据框进行排序？

按数字列对数据框进行排序

按索引对数据框进行排序

按数字对数据框进行排序

按列对数据框中的某些行进行排序

如何按不在数据框中的数组对数据框进行排序

按名称然后按日期对数据框进行排序，同时保持名称排序

按列对数据框进行排序

按列对数据框进行排序，其名称作为向量传递

如何按项目对数据框进行排序？

如何按水平值对数据框进行排序

使用重复元素对数据框进行排序

Pyspark 按表达式对数据框进行排序

R：如何根据数字向量对数据框进行排序？

根据自定义向量对数据框进行排序

TOP 榜单

文章

按向量元素对数据框进行排序

按向量元素对数据框进行排序

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Java Eclipse中的错误13，如何解决？

在Windows 7中无法删除文件（2）

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

套接字无法检测到断开连接

带有错误“ where”条件的查询如何返回结果？

有什么解决方案可以将android设备用作Cast Receiver？

Mac OS X更新后的GRUB 2问题

ggplot：对齐多个分面图-所有大小不同的分面

验证REST API参数

如何从视图一次更新多行（ASP.NET - Core）

尝试反复更改屏幕上按钮的位置 - kotlin android studio

计算数据帧中每行的NA

检索角度选择div的当前值

离子动态工具栏背景色

UITableView的项目向下滚动后更改颜色，然后快速备份

VB.net将2条特定行导出到DataGridView

蓝屏死机没有修复解决方案

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException