索引文本字段上的PostgreSQL查询性能

蒸了

您好，资深工程师，

我有一个性能不佳的查询，并认为添加索引将是一个快速简便的解决方案，会对性能产生积极的影响。

看来我错了，所以我在这里请教您。

该表实际上非常简单，包含约10,000个条目，看起来像这样：

CREATE TABLE phrase
(
    phrase_id bigint NOT NULL,
    phrase text COLLATE pg_catalog."default" NOT NULL,
    CONSTRAINT phrase_pkey PRIMARY KEY (phrase_id),
    CONSTRAINT phrase_phrase_key UNIQUE (phrase)
)

删除/创建索引后，在运行任何解释/查询之前，我在表上运行了VACUUM ANALYZE。

运行以下没有索引的查询大约需要82毫秒，这是几次尝试的大致平均值。

EXPLAIN ANALYSE SELECT phrase FROM phrase WHERE upper(phrase) = ANY('{*PROTEIN SHAKE,*APPLE PIE}');
"Seq Scan on phrase  (cost=0.00..295.72 rows=100 width=18) (actual time=0.049..5.730 rows=2 loops=1)"
"  Filter: (upper(phrase) = ANY ('{"*PROTEIN SHAKE","*APPLE PIE"}'::text[]))"
"  Rows Removed by Filter: 10046"
"Planning Time: 0.135 ms"
"Execution Time: 5.745 ms"

可能有一些短语需要拉回去，所以我在查看ILIKE时如下：

EXPLAIN ANALYSE SELECT phrase FROM phrase WHERE upper(phrase) ~~* ANY('{*PROTEIN SHAKE,*APPLE PIE}');;
"Seq Scan on phrase  (cost=0.00..295.72 rows=2 width=18) (actual time=0.113..19.492 rows=2 loops=1)"
"  Filter: (upper(phrase) ~~* ANY ('{"*PROTEIN SHAKE","*APPLE PIE"}'::text[]))"
"  Rows Removed by Filter: 10046"
"Planning Time: 0.081 ms"
"Execution Time: 19.510 ms"

创建像这样的btree索引后：

CREATE INDEX phrase_phrase_idx ON phrase USING BTREE (upper(phrase) text_pattern_ops ASC NULLS LAST)

等式查询给出以下解释；运行此查询大约需要85毫秒。

EXPLAIN ANALYSE SELECT phrase FROM phrase WHERE upper(phrase) = ANY('{*PROTEIN SHAKE,*APPLE PIE}');
"Index Only Scan using phrase_phrase_btree_idx on phrase  (cost=0.29..8.61 rows=2 width=18) (actual time=0.031..0.034 rows=2 loops=1)"
"  Index Cond: ((upper(phrase)) = ANY ('{"*PROTEIN SHAKE","*APPLE PIE"}'::text[]))"
"  Heap Fetches: 0"
"Planning Time: 0.100 ms"
"Execution Time: 0.112 ms"

ILIKE查询给出以下解释；运行此查询大约需要95毫秒。

EXPLAIN ANALYSE SELECT phrase FROM phrase WHERE upper(phrase) ~~* ANY('{*PROTEIN SHAKE,*APPLE PIE}');
"Seq Scan on phrase  (cost=0.00..295.72 rows=2 width=18) (actual time=0.116..19.043 rows=2 loops=1)"
"  Filter: (upper(phrase) ~~* ANY ('{"*PROTEIN SHAKE","*APPLE PIE"}'::text[]))"
"  Rows Removed by Filter: 10046"
"Planning Time: 0.247 ms"
"Execution Time: 19.060 ms"

我认为可能值得尝试将值保留在索引中，以节省前往表的时间：

CREATE INDEX phrase_phrase_idx ON phrase USING BTREE (upper(phrase) text_pattern_ops ASC NULLS LAST) INCLUDE(phrase_id, phrase);

运行以下查询（而非说明）大约需要85毫秒。

EXPLAIN ANALYSE SELECT phrase FROM phrase WHERE upper(phrase) = ANY('{*PROTEIN SHAKE,*APPLE PIE}');
"Seq Scan on phrase  (cost=0.00..295.72 rows=100 width=18) (actual time=0.046..5.734 rows=2 loops=1)"
"  Filter: (upper(phrase) = ANY ('{"*)"","*APPLE PIE"}'::text[]))"
"  Rows Removed by Filter: 10046"
"Planning Time: 0.139 ms"
"Execution Time: 5.748 ms"

这个ILIKE查询大约花费了95毫秒。

EXPLAIN ANALYSE SELECT phrase FROM phrase WHERE upper(phrase) ~~* ANY('{*PROTEIN SHAKE,*APPLE PIE}');
"Seq Scan on phrase  (cost=0.00..295.72 rows=2 width=18) (actual time=0.114..19.340 rows=2 loops=1)"
"  Filter: (upper(phrase) ~~* ANY ('{"*PROTEIN SHAKE","*APPLE PIE"}'::text[]))"
"  Rows Removed by Filter: 10046"
"Planning Time: 0.094 ms"
"Execution Time: 19.357 ms"

我以为我会尝试GIN索引：

CREATE INDEX phrase_phrase_gin_idx ON phrase USING GIN (upper(phrase) gin_trgm_ops)

相等查询大约需要85毫秒。

EXPLAIN ANALYSE SELECT phrase FROM phrase WHERE upper(phrase) = ANY('{*PROTEIN SHAKE,*APPLE PIE}');
"Seq Scan on phrase  (cost=0.00..295.72 rows=2 width=18) (actual time=0.056..5.764 rows=2 loops=1)"
"  Filter: (upper(phrase) = ANY ('{"*PROTEIN SHAKE","*APPLE PIE"}'::text[]))"
"  Rows Removed by Filter: 10046"
"Planning Time: 0.059 ms"
"Execution Time: 5.775 ms"

ILIKE查询也花费了大约85ms。

EXPLAIN ANALYSE SELECT phrase FROM phrase WHERE upper(phrase) ~~* ANY('{*PROTEIN SHAKE,*APPLE PIE}');
"Bitmap Heap Scan on phrase  (cost=148.02..155.34 rows=2 width=18) (actual time=0.264..0.275 rows=2 loops=1)"
"  Recheck Cond: (upper(phrase) ~~* ANY ('{"*PROTEIN SHAKE","*APPLE PIE"}'::text[]))"
"  Rows Removed by Index Recheck: 2"
"  Heap Blocks: exact=3"
"  ->  Bitmap Index Scan on phrase_phrase_gin_idx  (cost=0.00..148.02 rows=2 width=0) (actual time=0.247..0.247 rows=4 loops=1)"
"        Index Cond: (upper(phrase) ~~* ANY ('{"*PROTEIN SHAKE","*APPLE PIE"}'::text[]))"
"Planning Time: 0.281 ms"
"Execution Time: 0.314 ms"

我不确定自己在做什么错，但是我索引的方式看不出太多好处。

请有人足够友善地指出我在哪里/为什么要脾气暴躁。

我希望能够对此查询做出重大改变，但是我缺少了一些东西。

致以最诚挚的问候，保罗。

劳伦兹·阿尔伯

虽然Trigram索引是一个功能强大的工具，但它们更新缓慢且会变得很大，因此，如果可以使用B树索引，请务必使用它。

您必须测试Trigram索引是否可以为IN查询中的较长列表提供性能优势，但是我怀疑这样做是否可以。

我会坚持原来的

WHERE upper(phrase) = ANY('{*PROTEIN SHAKE,*APPLE PIE}')

和B树索引。无论您使用哪个索引，使用ILIKE ANY代替代替= ANY都不会带来任何好处。

在某个时候，如果列表很长，PostgreSQL将切换到顺序扫描，但是假设要扫描的表部分足够大以至于索引扫描不会再快了，那么也许是正确的。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-23

我来说两句

0 条评论

登录后参与评论

上一篇：如果条件在Python中为True，则跳过一段代码

包含带有 cURL 的新行的批量索引文本字段

Postgres文本字段性能

查询自由文本字段

大索引表上的 Postgresql 最大查询性能缓慢

Lucene索引-导出/查询未存储的“已索引”文本字段值

MongoDB查询不对带有文本字段的复合索引使用前缀

文本字段中的Solr范围查询

URL文本字段的查询优化

文本字段查询以替换前缀

MySQL-查询DATETIME字段（索引）性能

文本字段上的抖动光标位置

在MDL文本字段上更改颜色

使用熊猫在文本字段上的vlookup

在文本字段上添加签名 - itextsharp

在文本字段javafx上显示红点

如何填写网页上的文本字段？

更新Tkinter画布上的文本字段

在 postgresql 上查询 Json 字段

在文本字段中检测最后输入的字符的索引号

Mongodb：如何索引多个嵌套的文本字段？

在文本字段上从右向左更改静态文本

文本字段顶部的 fireOS firetv/firestick 上的 Flutter 文本字段

如何更新存储在PostgreSQL文本字段中的json数据？

Postgresql 文本字段在为空时得到 ''

MySQL查询以计算文本字段中的最长行

如何过滤复杂查询中的文本字段？

Elasticsearch 显示搜索查询的文本字段术语

SQL查询以从文本字段中提取单词

嵌套jsonb字段上的慢速不同PostgreSQL查询将不使用索引

TOP 榜单

文章

索引文本字段上的PostgreSQL查询性能

索引文本字段上的PostgreSQL查询性能

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID