我定义了以下函数,该函数接受输入字符串,并将其与大量字符串进行比较(均使用tfidf进行向量化):
def find_new_similar(tfidf_matrix2, index, tfidf_matrix, top_n = 5):
cosine_similarities = linear_kernel(tfidf_matrix2[index:index+1], tfidf_matrix).flatten()
related_docs_indices = [i for i in cosine_similarities.argsort()[::-1] if i != index]
return [(i, cosine_similarities[i]) for i in related_docs_indices][0:top_n], index
当我调用此函数时,我的输出是:
find_new_similar(tfidf_matrix2, 1, tfidf_matrix)
Out[15]:
([(923576, 0.51192576542407131),
(558563, 0.51192576542407131),
(1554977, 0.51192576542407131),
(1604772, 0.51192576542407131),
(514529, 0.50251903670563314)],
1)
其中每个元组的第一个元素(即923576、558563)是大型术语文件的索引。我想使用这些索引并在索引处返回值。
I have tried:
for i, score in find_new_similar(tfidf_matrix2, 0, tfidf_matrix):
print (score, corpus[i], i)
Traceback (most recent call last):
File "<ipython-input-18-792db65f6fd0>", line 1, in <module>
for i, score in find_new_similar(tfidf_matrix2, 0, tfidf_matrix):
ValueError: too many values to unpack (expected 2)
有人可以帮忙吗?谢谢?
您的函数返回一个列表,然后 index
return [(i, cosine_similarities[i]) for i in related_docs_indices][0:top_n], index
将您的代码更改为
for i, score in find_new_similar(tfidf_matrix2, 0, tfidf_matrix)[0]:
print (score, corpus[i], i)
获取列表并对其进行迭代。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句