将熊猫列添加到稀疏矩阵

邦森：

我想在模型中使用X变量的其他派生值。

XAll = pd_data[['title','wordcount','sumscores','length']]
y = pd_data['sentiment']
X_train, X_test, y_train, y_test = train_test_split(XAll, y, random_state=1)

当我使用标题中的文本数据时，我首先将其分别转换为dtm：

vect = CountVectorizer(max_df=0.5)
vect.fit(X_train['title'])
X_train_dtm = vect.transform(X_train['title'])
column_index = X_train_dtm.indices

print(type(X_train_dtm))    # This is <class 'scipy.sparse.csr.csr_matrix'>
print("X_train_dtm shape",X_train_dtm.get_shape())  # This is (856, 2016)
print("column index:",column_index)     # This is column index: [ 533  754  859 ...,  633  950 1339]

现在，我已经将文本作为文档术语矩阵，我想在X_train_dtm中添加数字等其他功能，例如'wordcount'，'sumscores'，'length'。这样，我将使用新的dtm创建模型，因此由于插入了附加功能，因此将更加准确。

如何将大熊猫数据框的其他数字列添加到稀疏的CSR矩阵中？

邦森：

找到了解决方案。我们可以使用sparse.hstack做到这一点：

from scipy.sparse import hstack
X_train_dtm = hstack((X_train_dtm,np.array(X_train['wordcount'])[:,None]))

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-06-1

我来说两句

0 条评论

登录后参与评论

将列添加到稀疏矩阵

将scipy稀疏行矩阵添加到另一个稀疏矩阵

如何有效地将稀疏矩阵列添加到另一个稀疏矩阵中的每一列？

将本征稀疏矩阵添加到本征张量

通过回收将行或列添加到矩阵

将列名称添加到矩阵的列

将矩阵添加到结构列而不使用for循环？

如何将向量添加到矩阵的单个列？

Pyspark-将另一列添加到稀疏向量列

将列添加到数据透视表（熊猫）

将列添加到没有标题的熊猫

熊猫-将缺失的列自动添加到数据框

将滚动窗口添加到熊猫每行中的列

熊猫将一日添加到列

如何将0添加到熊猫时间列

根据熊猫的状况将年添加到日期列

熊猫将时间列添加到日期索引

熊猫将列添加到未引用的数据框

将列添加到数据框熊猫上的组

在稀疏CSR矩阵中添加多个熊猫列

将CountVectorizer中的稀疏矩阵添加到带有分类器的补充信息的数据帧中-使其保持稀疏格式

将矩阵添加到列表

将图像添加到熊猫DataFrame

将标题添加到DataFrame熊猫

将数据添加到熊猫列表

将UUID添加到熊猫DF

Numpy将较小的矩阵添加到较大的矩阵

大熊猫-根据变量将值添加到列中，并将标题添加到mutltiindex（header）中

根据其他列中的值将新列添加到矩阵中

TOP 榜单

文章

将熊猫列添加到稀疏矩阵

将熊猫列添加到稀疏矩阵

Linux的官方Adobe Flash存储库是否已过时？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

如何检查字符串输入的格式

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

Modbus Python施耐德PM5300

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

用日期数据透视表和日期顺序查询

检查嵌套列表中的长度是否相同

Java Eclipse中的错误13，如何解决？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

如何自动选择正确的键盘布局？-仅具有一个键盘布局

ES5的代理替代

在令牌内联程序集错误之前预期为 ')'

有什么解决方案可以将android设备用作Cast Receiver？

套接字无法检测到断开连接

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

应用发明者仅从列表中选择一个随机项一次

在Windows 7中无法删除文件（2）

ggplot：对齐多个分面图-所有大小不同的分面