gin索引 btree索引 gist索引比较

news2024/12/24 18:20:29

创建例子数据

postgres=# create table t_hash as select id,md5(id::text) from generate_series(1,5000000) as id; 
SELECT 5000000
 
postgres=# vacuum ANALYZE t_hash;
VACUUM
 

postgres=# \timing
Timing is on.  

postgres=# select * from t_hash limit 10;
 id |               md5                
----+----------------------------------
  1 | c4ca4238a0b923820dcc509a6f75849b
  2 | c81e728d9d4c2f636f067f89cc14862c
  3 | eccbc87e4b5ce2fe28308fd9f2a7baf3
  4 | a87ff679a2f3e71d9181a67b7542122c
  5 | e4da3b7fbbce2345d7772b0674a318d5
  6 | 1679091c5a880faf6fb5e6087eb1b2dc
  7 | 8f14e45fceea167a5a36dedd4bea2543
  8 | c9f0f895fb98ab9159f51fd0297e236d
  9 | 45c48cce2e2d7fbdea1afc51c7c6ad26
 10 | d3d9446802a44259755d38e6d163e820
(10 rows)

Time: 1.430 ms

postgres=# explain analyze select * from t_hash where md5 like '%923820dc%';
                                                        QUERY PLAN                                                        
--------------------------------------------------------------------------------------------------------------------------
 Gather  (cost=1000.00..68758.88 rows=500 width=37) (actual time=1.998..753.217 rows=1 loops=1)
   Workers Planned: 2
   Workers Launched: 2
   ->  Parallel Seq Scan on t_hash  (cost=0.00..67708.88 rows=208 width=37) (actual time=492.740..742.780 rows=0 loops=3)
         Filter: (md5 ~~ '%923820dc%'::text)
         Rows Removed by Filter: 1666666
 Planning Time: 0.115 ms
 Execution Time: 753.275 ms
(8 rows)

Time: 754.916 ms

安装插件pg_trgm

postgres=# create extension pg_trgm ;
CREATE EXTENSION

postgres=# select show_trgm('c4ca4238a0b923820dcc509a6f75849b');
          show_trgm 
-----------------------------------------------------------------------------------------------------------------------------------------
 {"  c"," c4",09a,0b9,0dc,20d,238,382,38a,423,49b,4ca,509,584,6f7,758,820,849,8a0,923,9a6,"9b ",a0b,a42,a6f,b92,c4c,c50,ca4,cc5,dcc,f75}
(1 row)

Time: 12.006 ms

创建gin索引 like操作

#创建gin索引
postgres=# create index idx_gin on t_hash using gin(md5 gin_trgm_ops);
CREATE INDEX
Time: 177973.977 ms (02:57.974)
postgres=# explain analyze select * from t_hash where md5 like '%ce2345d%';
                                                      QUERY PLAN                                                      
                                                     QUERY PLAN                                                     
--------------------------------------------------------------------------------------------------------------------
 Bitmap Heap Scan on t_hash  (cost=239.87..2074.79 rows=500 width=37) (actual time=9.299..9.358 rows=2 loops=1)
   Recheck Cond: (md5 ~~ '%ce2345d%'::text)
   Heap Blocks: exact=2
   ->  Bitmap Index Scan on idx_gin  (cost=0.00..239.75 rows=500 width=0) (actual time=9.256..9.258 rows=2 loops=1)
         Index Cond: (md5 ~~ '%ce2345d%'::text)
 Planning Time: 0.710 ms
 Execution Time: 9.394 ms
(7 rows)

gin索引问题

postgres=# explain analyze select * from t_hash where md5 like '%9b%';
                                                    QUERY PLAN                                                     
-------------------------------------------------------------------------------------------------------------------
 Seq Scan on t_hash  (cost=0.00..104167.00 rows=808081 width=37) (actual time=0.035..6246.231 rows=574238 loops=1)
   Filter: (md5 ~~ '%9b%'::text)
   Rows Removed by Filter: 4425762
 Planning Time: 6.721 ms
 Execution Time: 9816.262 ms

如果碰到Like 小于两个字符的时候,无法使用gin索引。比如like '%ab%'无法使用索引。但是如果‘%abc%’就可以使用索引。

创建gist索引 like操作

postgres=# CREATE INDEX idx_gist ON t_hash USING gist (md5 gist_trgm_ops);
CREATE INDEX
postgres=# drop index idx_gin;
DROP INDEX
postgres=# DISCARD all;
DISCARD ALL
postgres=# explain analyze select * from t_hash where md5 like '%ce2345d%';
                                                       QUERY PLAN                                                       
------------------------------------------------------------------------------------------------------------------------
 Bitmap Heap Scan on t_hash  (cost=52.29..1887.21 rows=500 width=37) (actual time=808.728..808.738 rows=2 loops=1)
   Recheck Cond: (md5 ~~ '%ce2345d%'::text)
   Heap Blocks: exact=2
   ->  Bitmap Index Scan on idx_gist  (cost=0.00..52.16 rows=500 width=0) (actual time=808.707..808.708 rows=2 loops=1)
         Index Cond: (md5 ~~ '%ce2345d%'::text)
 Planning Time: 0.220 ms
 Execution Time: 808.855 ms
(7 rows)

测试发现,上述测试条件下,gin的效率要高很多。
对于上面gin索引两个字符无法使索引的问题,gist可以使用索引。

索引之=比拼

#gist索引情况
postgres=# explain analyze select * from t_hash where md5 ='1679091c5a880faf6fb5e6087eb1b2dc';
                                                     QUERY PLAN                                                     
--------------------------------------------------------------------------------------------------------------------
 Index Scan using idx_gist on t_hash  (cost=0.41..8.43 rows=1 width=37) (actual time=36.534..77.858 rows=1 loops=1)
   Index Cond: (md5 = '1679091c5a880faf6fb5e6087eb1b2dc'::text)
 Planning Time: 0.117 ms
 Execution Time: 77.885 ms
(4 rows) 
postgres=# drop index idx_gist;
DROP INDEX
postgres=# create index idx_gin on t_hash using gin(md5 gin_trgm_ops);
CREATE INDEX
postgres=# discard all;
DISCARD ALL

#gin索引情况
postgres=# explain analyze select * from t_hash where md5 ='1679091c5a880faf6fb5e6087eb1b2dc';
                                                     QUERY PLAN                                                      
---------------------------------------------------------------------------------------------------------------------
 Bitmap Heap Scan on t_hash  (cost=1560.01..1564.02 rows=1 width=37) (actual time=28.292..28.293 rows=1 loops=1)
   Recheck Cond: (md5 = '1679091c5a880faf6fb5e6087eb1b2dc'::text)
   Heap Blocks: exact=1
   ->  Bitmap Index Scan on idx_gin  (cost=0.00..1560.01 rows=1 width=0) (actual time=28.275..28.276 rows=1 loops=1)
         Index Cond: (md5 = '1679091c5a880faf6fb5e6087eb1b2dc'::text)
 Planning Time: 0.374 ms
 Execution Time: 28.323 ms
(7 rows)

# btree索引情况
postgres=# create index idx_dx on t_hash(md5);
CREATE INDEX

postgres=# discard all;
DISCARD ALL
postgres=# explain analyze select * from t_hash where md5 ='1679091c5a880faf6fb5e6087eb1b2dc';
                                                   QUERY PLAN                                                   
----------------------------------------------------------------------------------------------------------------
 Index Scan using idx_dx on t_hash  (cost=0.56..8.57 rows=1 width=37) (actual time=0.034..0.038 rows=1 loops=1)
   Index Cond: (md5 = '1679091c5a880faf6fb5e6087eb1b2dc'::text)
 Planning Time: 0.127 ms
 Execution Time: 0.060 ms
(4 rows)

测试情况:
gist:77.885 ms
gin:28.323 ms
btree:0.060 ms

测试结果:在=的测试中btree索引吊打。

索引大小比较


postgres=# select pg_size_pretty(pg_total_relation_size('idx_dx'));
 pg_size_pretty 
----------------
 282 MB
(1 row)

postgres=# select pg_size_pretty(pg_total_relation_size('idx_gin'));
 pg_size_pretty 
----------------
 332 MB

 postgres=# select pg_size_pretty(pg_total_relation_size('idx_gist'));
 pg_size_pretty 
----------------
 885 MB
(1 row)

结论:gist索引更大。

gin索引 VACUUM and autovacuum

首先gin索引的结构如下:
在这里插入图片描述

#创建表
postgres=# CREATE TABLE t_fti (payload tsvector) WITH (autovacuum_enabled = off);
CREATE TABLE
#插入数据
postgres=# INSERT INTO t_fti 
    SELECT to_tsvector('english', md5('dummy' || id)) 
    FROM generate_series(1, 2000000) AS id;
INSERT 0 2000000

postgres=# select * from t_fti limit 5;
               payload                
--------------------------------------
 '8c2753548775b4161e531c323ea24c08':1
 'c0c40e7a94eea7e2c238b75273087710':1
 'ffdc12d8d601ae40f258acf3d6e7e1fb':1
 'abc5fc01b06bef661bbd671bde23aa39':1
 '20b70cebcb94b1c9ba30d17ab542a6dc':1
(5 rows)

#创建索引
postgres=# CREATE INDEX idx_fti ON t_fti USING gin(payload);
CREATE INDEX

#使用插件观察索引
postgres=# CREATE EXTENSION pgstattuple;
CREATE EXTENSION

#首次没有pending list
postgres=# SELECT * FROM pgstatginindex('idx_fti');
 version | pending_pages | pending_tuples 
---------+---------------+----------------
       2 |             0 |              0
(1 row)

#再次插入数据
postgres=# INSERT INTO t_fti
SELECT to_tsvector('english', md5('dummy' || id))
FROM generate_series(2000001, 3000000) AS id;
INSERT 0 1000000

#pendling有数据,说明fastupate有效
postgres=# SELECT * FROM pgstatginindex('idx_fti');
 version | pending_pages | pending_tuples 
---------+---------------+----------------
       2 |           326 |          50141
(1 row)

#vacuum后写入gin树中
postgres=# vacuum t_fti ;
VACUUM
postgres=# SELECT * FROM pgstatginindex('idx_fti');
 version | pending_pages | pending_tuples 
---------+---------------+----------------
       2 |             0 |              0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1207212.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SAP 63策略测试简介

在之前的文章中我们又测试了60的策略,接下来我们测试一下63的策略,看看两者之间有什么区别。 首先我们先对比一下系统方面的配置 我们可以看到60策略和63策略中的独立需求的配置是一样的。只在客户需求配置方面有些区别,接下来就开始我们的测试 1、首先我们还是先创建物料…

K8S 集群搭建

1、搭建清单 2台linux服务器(一个master节点,一个node节点),建议搭3台(一个master,两个node) 我使用的是腾讯云,节点与节点使用公网IP通信 确保2台服务器都安装了docker 2、服务…

道路交通仿真方案【SUMO + TraCI + Python】

“城市交通模拟”(SUMO)是一个开源、高度可移植、微观和连续的交通模拟包,旨在处理大型网络(SUMO 文档)。 TraCI 是“交通控制接口”模块的简称,它可以访问正在运行的道路交通模拟,以检索模拟对…

理疗养生服务预约小程序要如何做

不少人面对身体症状疼痛,往往不会选择去医院,而是去理疗养生馆,选择艾灸、拔罐、中药贴敷等方式治疗改善或减轻疼痛。随着人们对中医信赖度增强,理疗养生市场增长迅速。 而在增长的同时,我们也注意到理疗养生馆经营痛…

点燃初冬!中海达亮相第一届中国测绘地理信息大会

11月8日,第一届中国测绘地理信息大会在浙江德清国际展览中心拉开帷幕。中海达携“海陆空、室内外”产品以及解决方案亮相展会,受到了与会领导、业界同仁、行业用户的高度关注。 ▲第一届中国测绘地理信息大会开幕式现场 本届大会以“科技引领&#xff0c…

电商平台api接口对接电商数据平台,获取商品详情页面实时信息须知

随着互联网的发展和普及,电商平台已成为人们日常生活中不可或缺的一部分。而为了保证电商平台的正常运行,平台与开发者之间需要进行数据交互,这便涉及到了电商平台API接口对接的问题。本文将详细介绍电商平台API接口对接的须知事项。 一、了解…

【原创】java+swing+mysql车辆维修管理系统设计与实现

摘要: 车辆维修管理系统是一个用于管理和追踪车辆维修过程的系统,它能够提高效率,减少错误,并提供详细的车辆历史记录,可以帮助车辆维修企业实现信息化管理,提高工作效率和客户满意度,降低运营…

RabbitMQ 核心部分之简单模式和工作模式

文章目录 一、Hello World(简单)模式1.导入依赖2.消息生产者3.消息消费者 二、Work Queues(工作)模式1.抽取工具类2.启动两个工作线程3.启动一个发送线程4.结果 总结 一、Hello World(简单)模式 在下图中&…

东北水利水电杂志东北水利水电杂志社东北水利水电编辑部2023年第11期目录

规划设计 导流泄洪洞射流-旋流梯级内消能工竖井出口体型优化 李金宝; 1-371 粉细砂地层防洪结构新形式研究 李泽鑫; 4-6《东北水利水电》投稿:cnqikantg126.com 引绰济辽工程鱼道进鱼口位置选择 银佳男;于月鹏;张鹏; 7-82471 大藤峡水利枢纽工程长期…

CRM销售管理软件哪个好,如何选?(二)

书接上回,我们从软件功能和厂商实力为大家介绍了CRM销售管理软件哪个好?该如何选型的难题,除了以上两点还有那些不容忽视的要素呢? 灵活性 CRM销售管理软件是企业信息化建设的中心,需要和其它企业管理应用进行集成实…

Python使用Mechanize库完成自动化爬虫程序

Mechanize是一个Python第三方库,它可以模拟浏览器的行为,实现自动化的网页访问、表单填写、提交等操作。下面是一个使用Mechanize库编写的爬虫的例子,它可以爬取百度搜索结果页面的标题和链接: import mechanize from bs4 import …

将铜互连扩展到2nm的研究

晶体管尺寸在3nm时达到临界点,纳米片FET可能会取代finFET来满足性能、功耗、面积和成本目标。同样,正在评估2nm铜互连的重大架构变化,此举将重新配置向晶体管传输电力的方式。 芯片制造商也可能会在2nm节点开始用钌或钼在一定程度上取代铜。…

一寸证件照排版工具,在线将证件照排版在相纸上

证件照是我们经常使用到的一种办事资料,考试报名和办理个人证件都是需要的,很多时候需要纸质照片,如果我们手头有打印机的话就很方便了,但相纸都是固定尺寸的例如5寸、6寸相纸,而数码证件照的尺寸则不固定,…

第二证券:被举牌一般会有几个涨停?

跟着股市的昌盛,越来越多的人初步查验出资,而其中一个备受注重的策略就是“举牌”。举牌是指某个股东对股票达到了必定比例的控制权,并告诉公司的一种行为。这种行为除了会对公司股价构成影响之外,还可以让股民猜疑和进一步价格走…

蓝牙特征值示例1-迈金L308自行车尾灯夜骑智能表情尾灯的

了解商品级蓝牙特征值 1 服务器(设备)描述 0x02-01-06 05-03-0F180A18 09-FF-FFFF166B001C0101 0A-09-4C3330385F37393937 01设备标识 03服务UUID FF厂商自定义数据(厂家编号:FFFF-166B001C0101) 完整设备名称: L308-7997 2 服…

Vue 3.0 + vite + axios+PHP跨域问题的解决办法

最后一个Web项目,采用前后端分离。 前端:Vue 3.0 viteelement plus 后端:PHP 运行时前端和后端是两个程序,前端需要时才向后端请求数据。由于是两个程序,这就会出现跨域问题。 比如前端某个地方需要请求的接口如下…

51单片机+DS1302设计一个电子钟(LCD1602显示时间)

一、前言 电子钟是一种能够准确显示时间的设备,广泛应用于家庭、办公场所和公共场所,为人们提供了方便和准确的时间信息。本项目设计一个基于51单片机的电子钟,使用DS1302作为RTC时钟芯片,LCD1602作为显示屏,并通过串…

安装MinGW并在codeblocks下使用

一、下载安装MinGW 1.下载MinGw安装器,下载地址 2. 安装 下载下来的知识一个安装器,我们双击安装会帮我们自动下载好相关文件 安装完成后会打开一个安装管理工具,在这个工具中我们选中想要安装的软件包然后安装到本地 选好以后在菜单栏选…

员工电脑监控的方法有哪些

有人在后台问,员工电脑监控的方法有哪些? 其实主要包括以下几方面:1)安装监控软件 2)使用操作系统自带的工具 3)部署网络监控设备 4)定期检查电脑 5)制定严格的规章制度 因为内容比…

DISSECT

XAE 学习架构 OGB means ‘Orthogonal Gate Block’,shared (A ∗ ^∗ ∗, B ∗ ^∗ ∗) and unshared (A ⊥ ^⊥ ⊥, B ⊥ ^⊥ ⊥) information,Φ是编码器,Ψ是解码器 辅助信息 作者未提供代码