我有一个包含以下数据的 CSV 文件,其中包含 9000 多条记录
id,Category1,Category2
如何将此 csv 文件转换为,RDD<Vector>
以便我可以使用它columnSimilarities
在 java 中使用Apache Spark查找类似的列。
你可以试试这个:
sparkSession.read.csv(myCsvFilePath) // you should have a DataFrame here
.map((r: Row) => Vector.dense(r.getInt(0), r.getInt(1), r.getInt(2))) // you should have a Dataset of Vector
.rdd // you have your RDD[Vector]
如果它不起作用,请随时联系。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句