我正在尝试获取文本与数组中包含的文本之间的余弦相似度。
我一直在研究这段代码:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
text1 = 'Hola me llamo Luis'
text2 = 'Ayer Juan se compró una casa'
text3 = 'Casiguagua está más gordo que un manatí'
text4 = 'Y encima le huelen los pies'
text5 = 'HOlA ME LLAMO PEPE'
tweets = [text1, text2, text3, text4]
vectorizer = TfidfVectorizer(max_features=10000)
vectorizer.fit(tweets)
text1_vector = vectorizer.transform([text1])
text2_vector = vectorizer.transform([text2])
text3_vector = vectorizer.transform([text3])
text4_vector = vectorizer.transform([text4])
text5_vector = vectorizer.transform([text5])
buffer = []
buffer.append(text1_vector)
buffer.append(text2_vector)
buffer.append(text3_vector)
buffer.append(text4_vector)
similarity = cosine_similarity(text5_vector.reshape(1,-1), buffer)
我的向量类型是:
scipy.sparse.csr.csr_matrix
所以我想我将不得不将我的缓冲区传递给 csr_matrix,但我不知道如何做到这一点。
我也一直试图将我的缓冲区初始化为一个np.array([])
对象,但我没有实现稍后将向量添加到缓冲区。知道我失败了什么吗?
你不能附加sparse rows
到 a numpy array
,你可以做的是stack
dense numpy arrays
使用vstack
and喜欢这个toarray
:
buffer = np.vstack([text1_vector.toarray(),
text2_vector.toarray(),
text3_vector.toarray(),
text4_vector.toarray()])
similarity = cosine_similarity(text5_vector.toarray(), buffer)
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句