如何将 .csv 文件转换为 RDD<Vector>?

吉坦德拉·帕蒂尔

我有一个包含以下数据的 CSV 文件,其中包含 9000 多条记录

 id,Category1,Category2

如何将此 csv 文件转换为,RDD<Vector>以便我可以使用它columnSimilarities在 java 中使用Apache Spark查找类似的列

https://spark.apache.org/docs/2.3.0/api/java/org/apache/spark/mllib/linalg/distributed/RowMatrix.html#RowMatrix-org.apache.spark.rdd.RDD-

酒吧

你可以试试这个:

sparkSession.read.csv(myCsvFilePath) // you should have a DataFrame here
  .map((r: Row) => Vector.dense(r.getInt(0), r.getInt(1), r.getInt(2))) // you should have a Dataset of Vector
  .rdd // you have your RDD[Vector]

如果它不起作用,请随时联系。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章