您可以使用文本相似性搜索相关的数据库表/字段吗？

Harold 发表于 Dev

哈罗德

我正在做一个大学项目，我需要将一个字符串与其他字符串列表进行比较。我想知道我们是否有任何一种图书馆可以做到这一点。

假设我有一个表：DOCTORS_DETAILS

其他表格名称是：HOSPITAL_DEPARTMENTS，DOCTOR_APPOINTMENTS，PATIENT_DETAILS，PAYMENTS等。

现在，我要计算其中哪一个与DOCTOR_DETAILS相关性更高？预期的输出可以是，

DOCTOR_APPOINTMENTS - More relevant because of the term doctor matches in both string

PATIENT_DETAILS - The term DETAILS present in both string

HOSPITAL_DEPARTMENTS - least relevant

PAYMENTS - least relevant

因此，我想根据两个有问题的字符串上存在的相似术语的数量找到RELEVENCE。

例如：DOCTOR_DETAILS-> DOCTOR_APPOITMENT（1/2）> DOCTOR_ADDRESS_INFORMATION（1/3）> DOCTOR_SPECILIZATION_DEGREE_INFORMATION（1/4）> PATIENT_INFO（0/2）

山姆·H

语义相似性是一个常见的NLP问题。有多种方法可供研究，但它们的核心将归结为：

将每一段文字转换为矢量
测量向量之间的距离，并调用更接近的向量

执行步骤1的三种可能方法是：

要执行步骤2，几乎可以肯定要使用余弦距离。使用Python非常简单，这是博客文章中的实现：

import numpy as np

def cos_sim(a, b):
    """Takes 2 vectors a, b and returns the cosine similarity according 
    to the definition of the dot product
    """
    dot_product = np.dot(a, b)
    norm_a = np.linalg.norm(a)
    norm_b = np.linalg.norm(b)
    return dot_product / (norm_a * norm_b)

对于您的特定用例，我的直觉是使用快速文本。因此，官方站点显示了如何下载一些预训练的词向量，但是您将要下载预训练的模型（请参阅GH问题，请使用https://dl.fbaipublicfiles.com/fasttext/vectors-english/wiki-news- 300d-1M-subword.bin.zip），

然后，您需要执行以下操作：

import fasttext

model = fasttext.load_model("model_filename.bin")


def order_tables_by_name_similarity(main_table, candidate_tables):
    '''Note: we use a fasttext model, not just pretrained vectors, so we get subword information
    you can modify this to also output the distances if you need them
    '''
    main_v = model[main_table]
    similarity_to_main = lambda w: cos_sim(main_v, model[w])
    return sorted(candidate_tables, key=similarity_to_main, reverse=True)

order_tables_by_name_similarity("DOCTORS_DETAILS", ["HOSPITAL_DEPARTMENTS", "DOCTOR_APPOINTMENTS", "PATIENT_DETAILS", "PAYMENTS"])

# outputs: ['PATIENT_DETAILS', 'DOCTOR_APPOINTMENTS', 'HOSPITAL_DEPARTMENTS', 'PAYMENTS']

如果您需要将此产品投入生产，那么巨大的模型大小（6.7GB）可能是个问题。此时，您将要构建自己的模型，并限制模型的大小。6MB模型可能会获得大致相同的精度！

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-24

我来说两句

0 条评论

登录后参与评论

上一篇：概念可以与模板模板参数一起使用吗？

您可以使用文本相似性搜索相关的数据库表/字段吗？

您可以使用文本相似性搜索相关的数据库表/字段吗？

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用