如何在带有短句的大型数据集中有效地使用spacy？

187

王力：

我选择spacy来处理各种文本，因为与nltk相比，它具有lemmatation的性能。但是，当我处理数百万个短文本时，它总是消耗掉我所有的内存（32G）并崩溃了。没有它，仅需几分钟，而消耗的内存不足10G。

使用此方法有问题吗？有没有更好的解决方案来提高性能？谢谢！

def tokenizer(text):
    try:
        tokens = [ word for sent in sent_tokenize(text) for word in word_tokenize(sent)]
        tokens = list(filter(lambda t: t.lower() not in stop_words, tokens))
        tokens = list(filter(lambda t: t not in punctuation, tokens))
        tokens = list(filter(lambda t: len(t) > 4, tokens))
        filtered_tokens = []
        for token in tokens:
            if re.search('[a-zA-Z]', token):
                filtered_tokens.append(token)

        spacy_parsed = nlp(' '.join(filtered_tokens))
        filtered_tokens = [token.lemma_ for token in spacy_parsed]
        return filtered_tokens
    except Exception as e:
        raise e

达拉斯并行计算

ddata = dd.from_pandas(res, npartitions=50)
def dask_tokenizer(df):
    df['text_token'] = df['text'].map(tokenizer)
    return df
%time res_final = ddata.map_partitions(dask_tokenizer).compute(get=get)

有关spaCy的信息

spaCy version      2.0.5          
Location           /opt/conda/lib/python3.6/site-packages/spacy
Platform           Linux-4.4.0-103-generic-x86_64-with-debian-stretch-sid
Python version     3.6.3          
Models             en, en_default

pmbaumgartner：

您可以在杂乱中使用多线程来创建快速的令牌化和数据接收管道。

使用该nlp.pipe方法重写代码块和功能将如下所示：

import spacy
nlp = spacy.load('en')

docs = df['text'].tolist()

def token_filter(token):
    return not (token.is_punct | token.is_space | token.is_stop | len(token.text) <= 4)

filtered_tokens = []
for doc in nlp.pipe(docs):
    tokens = [token.lemma_ for token in doc if token_filter(token)]
    filtered_tokens.append(tokens)

这种方式将您所有的过滤都放到token_filter函数中，该函数接收一个spacy令牌，并且True仅当它不是标点，空格，停用词和4个或更少的字符时才返回。然后，在遍历每个文档中的每个标记时使用此函数，只有在满足所有这些条件的情况下，该标记才返回引理。然后，filtered_tokens是您的标记化文档的列表。

定制此管道的一些有用参考将是：

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-06-4

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

如何在带有短句的大型数据集中有效地使用spacy？

如何在带有短句的大型数据集中有效地使用spacy？

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Java Eclipse中的错误13，如何解决？

在Windows 7中无法删除文件（2）

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

套接字无法检测到断开连接

带有错误“ where”条件的查询如何返回结果？

有什么解决方案可以将android设备用作Cast Receiver？

Mac OS X更新后的GRUB 2问题

ggplot：对齐多个分面图-所有大小不同的分面

验证REST API参数

如何从视图一次更新多行（ASP.NET - Core）

尝试反复更改屏幕上按钮的位置 - kotlin android studio

计算数据帧中每行的NA

检索角度选择div的当前值

离子动态工具栏背景色

UITableView的项目向下滚动后更改颜色，然后快速备份

VB.net将2条特定行导出到DataGridView

蓝屏死机没有修复解决方案

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException