如何使用DataFrame在Spark中构建CoordinateMatrix？

Dimitris Poulopoulos

我试图将ALS算法的Spark实现用于推荐系统，因此我构建了如下所示的DataFrame作为训练数据：

|--------------|--------------|--------------|
|    userId    |    itemId    |    rating    |
|--------------|--------------|--------------|

现在，我想创建一个稀疏矩阵，以表示每个用户和每个项目之间的交互。矩阵将是稀疏的，因为如果用户和项目之间没有交互，则矩阵中的对应值将为零。因此，最后，大多数值将为零。

但是如何使用CoordinateMatrix实现呢？我之所以说CoordinateMatrix是因为我正在使用Spark 2.1.1和python，并且在文档中，我看到仅当矩阵的两个维都很大且矩阵非常稀疏时才应使用CoordinateMatrix。

换句话说，我如何从该DataFrame到达CoordinateMatrix，其中行将是用户，列将是项，而等级将是矩阵中的值？

大卫·韦恩

CoordinateMatrix只是MatrixEntrys的RDD的包装。MatrixEntry只是一个（长，长，浮点）元组的包装。Pyspark允许您从此类元组的RDD创建CoordinateMatrix。如果userId和itemId字段都是ratingIntegerTypes，并且和FloatType类似，则创建所需矩阵非常简单。

from pyspark.mllib.linalg.distributed import CoordinateMatrix

cmat=CoordinateMatrix(df.rdd.map(tuple))

如果userIdanditemId字段具有StringTypes，则只会稍微复杂一点。您需要先为这些字符串建立索引，然后再将索引传递给CoordinateMatrix。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-6

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

如何使用DataFrame在Spark中构建CoordinateMatrix？

如何使用DataFrame在Spark中构建CoordinateMatrix？

计算数据帧R中的字符串频率

Android Studio Kotlin：提取为常量

Excel 2016图表将增长与4个参数进行比较

获取并汇总所有关联的数据

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

将加号/减号添加到jQuery菜单

算术中的c ++常量类型转换

TYPO3：将 Formhandler 添加到新闻扩展

TreeMap中的自定义排序

如何开始为Ubuntu开发

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

无法使用 envoy 访问 .ssh/config

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

遍历元素数组以每X秒在浏览器上显示

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

尝试在Dell XPS13 9360上安装Windows 7时出错

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称