文本列的性能优化?深入Oracle全文索引

news2025/1/10 18:14:52

一.什么是全文索引?

全文索引通过分析和处理文本,将文档中的单词分解为词条(tokens),然后存储词条与其所在文档的映射关系。这使得数据库可以快速定位包含特定关键字的记录,而不必对所有文本逐字匹配。

二.实验

CREATE TABLE test (
    TEST_ID   NUMBER(6),
    TEST_NAME VARCHAR2(50),
    TEST_DESC VARCHAR2(4000)
);
BEGIN
    FOR i IN 1..10000 LOOP
        INSERT INTO test (TEST_ID,TEST_NAME,TEST_DESC) 
        VALUES (
            i, 
            'Product ' || i, 
            DBMS_RANDOM.STRING('A', 2000)
        );
    END LOOP;
    COMMIT;
END;
/

 创建一个普通索引

create index idx_test on test(test_desc);

查看执行计划,检查索引是否生效

 select * from test where test_desc like 'LRbwu%';

061a05344b9145c3aed953780b82ae2d.png

 到此,是没有任何问题的,在这种情况中,我们知道test_id 是以什么字符开头的


 

那么就会有这么一种情况,我们不知道这个内容开头是什么,只知道中间是什么,有什么关键字,那么这种情况 我们就需要<%内容%>,那么这种情况还会走索引吗?

select * from test where test_desc like '%AoaUR%';

ac80bd1246904582b226ddb63d6c4d1d.png

 这时候我们发现,走了全表扫描,所以普通的索引解决不了我们只知道关键字,而不知道以什么字符开头的情况。

这也可以理解,B Tree索引只顺序存储了表中列值以及对应的rowid,并且对于索引中字符串的排序,是根据该字符串第一个字符的ASCⅡ码,第一个字符的ASCⅡ码相同,再解析第二个。在这种情况中,我们不知道字符串前面的字符是什么,所以B Tree索引无法使用。

所以这种场景就需要我们今天介绍的内容-全文索引


三.使用全文索引

 

在使用之前,数据库中必须要系统用户CTXSYS,如果没有则有两种方式来配置

1.dbca配置数据库,这里不做演示,配置后产生了CTXSYS用户

35e5cef47d7d4cee81e0a23778356236.png

2.跑脚本

/u01/app/oracle/product/19.3.0/dbhome_1/ctx/admin
ls -al catctx.sql

在数据库中跑这个脚本就好。

 

创建全文索引

确认已存在的段

col segment_name for a30
col object_name for a30
select segment_name ,segment_type from user_segments;

18c8fe4c4b9f4758b598d29d9a136c59.png

create index idx_ctx_test on test(test_desc) indextype is ctxsys.context;

79f29b61496343dabbe29b90861f54a3.png

这里我们发现,全文索引可以建立在普通索引之上,意思是表中的一列有索引了,仍然可以建立全文索引,说明全文索引的结构和普通索引的结构肯定是有区别的。

select * from test where contains(test_desc,'LRbwu') > 0;

5840c208c7944980b1ff628c353754c0.png

 可以看到sql语句走了全文索引。

再查看一下现在的段都有哪些

col segment_name for a30
col object_name for a30
select segment_name ,segment_type from user_segments;

ce955e6cdc84465ebae3d7bab9d4aa77.png

可以看到段多了很多TEST是基本表,剩下的除了IDX_TEST是普通索引,剩下的全是全文索引,

但是我们刚才创建的索引名字是idx_ctx_test,发现找不到,这是因为全文索引只是逻辑上的概念,他没有存储对象,它的实现都依赖这些表。

 

四.深入全文索引

我们来看看这几张表

1e07b6d7c46544c7806c959be3d0de39.png

出现的token给他编一个号,并且存储了重复出现的次数(TOKEN_COUNT)

我们随机搜索一个字符串。

2319e2aea0084f00b5d547bdcbbd2064.png

DR$IDX_CTX_TEST$I 这个表把test_desc 这一列的值像字典一样保存出来,编一个号,并且总结出现的次数。但由于我是使用的DBMS_RANDOM.STRING 这个包随机创建的数据,所以这个表非常的大。

编了号之后,仍然不知道这些词在哪个地方,这时候就需要另外一张表 DR$IDX_CTX_TEST$K

 061f0c48b5ac49fd8f61057c3842dca2.png

 55ccc6164b164605961a78c0b5a377ac.png

这个TEXTKEY就是rowid了,我们可以根据TESTKEY找到数据了.

也就是说 DR$IDX_CTX_TEST$I  会生成token和编号,DR$IDX_CTX_TEST$K 表示对应的这些编号数据存放在哪里

349b900f0b8d4d32a0988cba26cb3a0f.png

 

五.全文索引的维护

在TEST表上做DML操作,看索引与表是否同步4

1.insert

select * from test where test_desc like 'nihao';

c17d31deb2dd4b3eacd19f38a266ff65.png

insert into test values (999,'DBA','nihao');

 57a8bb0f56494de481e3410bec2a41fe.png

此时通过全文索引查找数据,查看是否更新  

select * from test where contains(test_desc,'nihao') > 0;

61ecbbb87f594490bd3f358f1ae1d998.png

发现全文索引没有更新,这就说明表中的数据变了,而全文索引中的数据没有变。

使用sys查看ctxsys.dR$pending表

select * from ctxsys.dR$pending;

3e55b96f11ac4a4286fd341e417546c1.png

 这个表里面的数据就是我刚才插入的数据,只是没有更新到全文索引

这种情况需要重建全文索引。

alter index idx_ctx_test rebuild;

再次使用全文索引查询发现更新了

56038c07225c41388b76df26546a237a.png

 

2.delete

941e56c3006a4c9d8913960d25a5387b.png

 查看全文索引

f626768693ec4680b29b0cef28065f48.png

 这里可以发现,delete与insert语句不同,delete后 全文索引也更新了。

3.update,可以自己做实验,update也是不同步全文索引的。

 

六.全文索引创建同步的方式

一遇到插入的场景就需要重建全文索引,这也太麻烦了,所以,我们可以在创建全局索引的时候指定同步的方式。

提交时同步

create index idx_ctx_test on test(test_desc) indextype is ctxsys.context parameters('sync (on commit)');

 指定时间同步(建议)

需要给用户 job的权限

grant create job to user1;

 8ae23f100a2344e788b757590364bf8e.png

 例如:每天晚上两点来同步全文索引

create index idx_ctx_test on test(test_desc) indextype is ctxsys.context parameters ('sync (every "trunc(sysdate) + 2/24")');

20d45be2dddd40afa57e2bbeaf2fd8cd.png

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2227728.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解决IllegalAccessException: java.lang.Class<xxx.xActivity> is not accessible

异常信息 Caused by: java.lang.IllegalAccessException: java.lang.Class<com.xxx.xActivity> is not accessible from java.lang.Class<android.app.AppComponentFactory>at java.lang.Class.newInstance(Native Method)at android.app.AppComponentFactory.inst…

基于spootboot学生选课系统设计与实现

资料下载 https://download.csdn.net/download/qq_63753925/89888794 https://download.csdn.net/download/qq_63753925/89888793 https://download.csdn.net/download/qq_63753925/89885091 https://download.csdn.net/download/qq_63753925/89882320 摘 要 近年来&#xf…

计算机网络IP地址分类,子网掩码,子网划分复习资料

IP 地址的概念 IP 地址是独立于硬件地址的逻辑地址&#xff0c;它是由软件提供的地址。 IP 地址是网络层地址。 IP 编址方案和分类 IP 地址由 32 位二进制数构成&#xff0c;分为前缀(网络地址)和后缀(主机地址) 同一网段中每台计算机的 IP 地址是唯一的网络地址的分配全球…

山海鲸报表VS微软Power BI:哪个报表工具更适合企业?

在当今数据驱动的商业环境中&#xff0c;选择一款合适的报表工具对企业至关重要。山海鲸报表和微软Power BI都是广受欢迎的报表工具&#xff0c;但两者在功能、用户体验和应用场景上各有不同。那么&#xff0c;在实际使用中&#xff0c;究竟哪款工具更能满足企业需求呢&#xf…

【电子通识】四线制电阻屏怎么判断是哪一路出现异常?

在文章【电子通识】四线电阻屏原理中我们聊了一下四线电阻屏触摸的原理,如电阻屏结构、如何计算坐标等方面。 那么在实际的问题分析中,如果是屏硬件问题,那我们如何去判断到底是X还是Y出现异常或是说X+还是X-,是Y+还是Y-出现问题呢? 首先要知道,XY轴为什么会出问题,其实…

Linux基础环境搭建(CentOS7)- 安装Scala和Spark

#Linux基础环境搭建&#xff08;CentOS7&#xff09;- 安装Scala和Spark Linux基础环境搭建&#xff08;CentOS7&#xff09;- 安装Scala和Spark 大家注意以下的环境搭建版本号&#xff0c;如果版本不匹配有可能出现问题&#xff01;&#xff08;spark不要下2.4版本的 会报错…

EPLAN创建宏并自定义部件库详细案例操作(二)

#通过导入EDZ格式部件库的样式,模仿制作一个自定义的部件库# 续 EPLAN创建宏并自定义部件库详细案例操作(一) 需要宏文件(欧姆龙2D/3D),可以在此下载。 https://download.csdn.net/download/weixin_44166380/89933112 三、PLC地址编址 实际上,本操作可以忽略,但是如果…

国产系统安装Oracle报错处理

1.调用图形界面报错&#xff1a;已拒绝X11转移申请 解决方法&#xff1a;修改/etc/ssh_config 和/etc/sshd_config &#xff1a;X11Forwarding yes中和x11里no改为yes 2.开始安装./runInstaller提示 /u01/app/oracle/product/19.3.0.0/db_1/perl/bin/perl: error while loadi…

黑马数据库学习笔记

课程地址 &#xff08;基础篇&#xff09;MySQL的启动 mysql 默认使用 3306 端口 在 centos下&#xff0c;启动 mysql 数据库&#xff1a;service mysqld start; 查看状态/启动/停止/重启&#xff1a;systemctl status/start/stop/restart mysqld; 登录到mysql数据库&…

20241027_北京郊游香山公园

这次是第二次去香山公园&#xff0c;天气不是很晴朗&#xff0c;有雾。 乘坐地铁到的时候&#xff0c;第一趟车&#xff0c;我这么聪明&#xff0c;那肯定是不会坐的&#xff0c;因为没有座位&#xff0c;路程30多分钟&#xff0c;我都20多岁了&#xff0c;身体那肯定顶不住。 …

从0到1,AI我来了- (7)AI应用-ComfyUI-III-Flux模型

上篇我们利用已有的工作流&#xff0c;完成了一个已有comfyUi workflow 的美女制作&#xff0c;有美女&#xff0c;需要野兽来配&#xff0c;最近黑森林的Flux 很火&#xff0c;我们也来实践一下生成野猴子黑悟空。 这篇文章主要内容分三部分&#xff1a; 一、认识Flux&#…

【Linux系统编程】线程深入运用

目录 一&#xff0c;C线程与系统线程 二&#xff0c;分离线程 三&#xff0c;线程结构 四&#xff0c;__thread关键字 五&#xff0c;Linux线程互斥 1&#xff0c;线程互斥相关的背景概念 2&#xff0c;互斥锁 3&#xff0c;死锁 4&#xff0c;互斥锁的弊端 六&#…

【 C++ 】C++11的初步学习

目录 ​编辑 一、列表初始化 1.支持内置类型 2.支持自定义类型 二、initializer-list 三、右值引用和移动语义 1.左值和右值 a&#xff09;左值 b&#xff09;右值 2.左值引用和右值引用 a&#xff09;左值引用 b&#xff09;右值引用 c&#xff09;总结 d&#xf…

云计算平台上的DevOps实践

文章目录 什么是DevOps云计算平台上的DevOps优势自动化部署弹性伸缩地理分布 实施DevOps的关键组件版本控制系统持续集成/持续交付工具配置管理工具监控和日志管理 实践案例使用AWS CodePipeline进行持续集成/持续交付利用AWS Auto Scaling实现弹性使用AWS CloudFormation进行基…

C++引用类型变量

引用变量的主要用途是用作函数的形参。这样函数将使用原始数据&#xff0c;而不是副本。除指针之外&#xff0c;引用也为处理大型结构提供了一种非常方便的途径。 在C中使用&符号标识引用。也就是说C给&符号赋予了另一个含义&#xff0c;将其用来声明引用。 引用的声…

「C/C++」C/C++预处理 之 X宏(X Macro)

✨博客主页何曾参静谧的博客&#x1f4cc;文章专栏「C/C」C/C程序设计&#x1f4da;全部专栏「VS」Visual Studio「C/C」C/C程序设计「UG/NX」BlockUI集合「Win」Windows程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「PK」Parasoli…

数据结构————map,set详解

今天带来map和set的详解&#xff0c;保证大家分清楚 一&#xff0c;概念 map和set是一种专门用来搜索的容器或数据结构 map能存储两个数据类型&#xff0c;我们称之为<key-value>模型 set只能存储一个数据类型&#xff0c;我们称之为纯<key>模型 它们的效率都非…

APISQL企业版离线部署教程

针对政务、国企、医院、军工等内网物理隔离的客户&#xff0c;有时需要多次摆渡才能到达要安装软件的服务器。本教程将指导您使用Linux和Docker Compose编排服务&#xff0c;实现APISQL的离线部署。 准备 准备一台Linux(x86_64)服务器。 安装Docker Engine&#xff08;推荐版本…

DC-1渗透测试

DC1 五个flag的拿取&#xff08;截图是五个flag里面的内容&#xff09; 注意事项&#xff1a;kali的用户名&#xff1a;root 密码&#xff1a;kali 注意&#xff1a;DC1 只要开机服务就起来了 思路&#xff1a;信息收集—> 寻找漏洞—> 利用漏洞(sql注入,文件上传漏洞…

uniapp的IOS证书申请(测试和正式环境)及UDID配置流程

1.说明 本教程只提供uniapp在ios端的证书文件申请&#xff08;包含正式环境和开发环境&#xff09;、UDID配置说明&#xff0c;请勿用文档中的账号和其他隐私数据进行测试&#xff0c;请勿侵权&#xff01; 2.申请前准备 证书生成网站&#xff1a;苹果应用上传、解析&#x…