征服ES(ElasticSearch)的慢查询实战

news2024/10/22 20:51:29

在 Elasticsearch(ES)中,进行大数据查询时,常常会由于多种因素而导致性能显著下降。接下来,我们将深入探讨几种常见情况及其相应的解决方案。

一、常见问题分析

  1. 深分页、大排序
    • 大量数据扫描与多分片上的多次排序会严重影响性能。
    • 深分页的性能问题源于 ES 需要扫描并排序大量数据,这一过程不仅要在每个分片上进行扫描排序,还需在主查询节点上进行召回汇总,涉及二次排序。
    • 大排序是指在大量数据上进行排序,同样会带来性能挑战。
  2. 通配符查询与正则表达式查询
    • 这两种查询方式容易导致全表扫描,消耗大量资源。
  3. 高基数字段聚合
    • 高基数排序可能耗尽内存和计算资源,例如按照玩家 ID 分组进行聚合。
  4. 脚本查询
    • 脚本在每个文档上执行,消耗 CPU 和内存,且无法利用缓存。
  5. 大字段全文搜索
    • 大字段的倒索引和存储极为耗费资源。

二、解决方案分类介绍

  1. 深分页、大排序
    • 深分页
      • 产品方面
        • 采用虚拟滚动实现分页,提升用户体验的同时优化性能。
        • 限制总数 track_total_hits,控制在百万以内,例如将 totalCount 最多记录设置为 100 万,多余部分直接显示为 100w+。
      • 技术方面
        • 使用 search_after 查询方式替代偏移量查询,能显著提升性能。需注意加入 id 或其他唯一字段,确保 after 的条件准确,以保证结果的准确性。
    • 大排序
      • 多使用 filter 过滤,因为 ES 执行顺序是 query -> filter -> sort。若前两步能排除更多数据,sort 阶段处理的数据量就会减少。
      • 对于 keyword 类型的字段,不要关闭 doc_values,采用列存储。列存储的 keyword 对聚合和排序性能更优,以存储空间换取性能。
  2. 通配符查询和正则查询
    • 用 prefix 实现查询,对字段创建正序和倒序两个值索引字段,利用 prefix 进行查询。
    • 使用 ngram 或者 edge gram 分词,虽然会占用更多索引空间,但能提高查询效率。需注意,模糊查询的字段无需评分,应放置在 filter 中,这也是一种以存储空间换性能的方案。
  3. 高基数聚合查询
    • 产品和技术配合:在确定需求无误后,可以独立创建另一个粒度的索引。
    • 技术手段:使用 composite 多桶聚合,降低查询压力;预先用 cardinality 判断基数大小。
  4. 脚本查询
    • 数据预处理:新建索引,在数据 reindex 时运行脚本,补全需要查询或排序的字段。
    • 脚本优化:尽量将脚本放在 filter 阶段,并且只保留一个脚本。脚本尽量使用 ES 官方的 Painless 开发,提高性能和可维护性。
  5. 大字段全文搜索
    • 首先明确大文本的范围:小文本长度在 1KB 以下(约 1000 字符以内);中等文本长度在 1KB 到 10KB 之间(约 1000 到 10000 字符);大文本长度在 10KB 以上(约 10000 字符以上)。
    • 处理大文本的两种思路:
      • 分片分段:将大文本字段拆分为多个较小的字段或段落,分别进行索引和查询。
      • 语义搜索:引入 embedding 向量查询,摒弃传统的分词搜索,提升查询效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2221056.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OceanBase 的写盘与传统数据库有什么不同?

背景 在数据库开发过程中,“写盘”是一项核心操作,即将内存中暂存的数据安全地转储到磁盘上。在诸如MySQL这样的传统数据库管理系统中,写盘主要有以下几步:首先将数据写入缓存池;其次,为了确保数据的完整性…

【Qt】控件——Qt输入类控件、常见的输入类控件、输入类控件的使用、Line Edit、Text Edit、Combo Box、Spin Box

文章目录 Qt5. Qt显示类控件Line EditText EditCombo BoxSpin BoxQDateTimeEditDialSlider Qt 5. Qt显示类控件 Line Edit QLineEdit 用于表示单行输入框。可以输入一段文本,但是不能换行。 属性说明text输入框中的文本inputMask输入内容格式约束maxLength最大长度…

【HAD】Half-Truth: A Partially Fake Audio Detection Dataset

文章目录 Half-Truth: A Partially Fake Audio Detection Dataset背景key points研究数据集设计评价指标实验基线:utterance-level分类(话语级)基线:segment-level分类(片段级)Half-Truth: A Partially Fake Audio Detection Dataset 会议/期刊:Interspeech 2021 CCF-C…

哈佛医学生一个月吃720个鸡蛋,结果发现......

你们听说过吃鸡蛋还能降低胆固醇的操作吗? 前段时间,哈佛医学院的学生尼克诺尔维茨(Nick Norwitz)就做了这样一个实验,得出的结果让大家震惊! 许多人认为狂吃鸡蛋不会有好处,因为这会摄入大量胆…

FFT过程中自动补零,补零部分FFT结果不为零

在 FFT(快速傅里叶变换) 中,补零(Zero Padding)是为了使信号的点数符合 2 的幂次方,以提高 FFT 的计算效率。然而,即使你对信号进行了补零,FFT 计算后在补零部分可能会得到复数结果不…

<项目代码>YOLOv8工具识别<目标检测>

YOLOv8是一种单阶段(one-stage)检测算法,它将目标检测问题转化为一个回归问题,能够在一次前向传播过程中同时完成目标的分类和定位任务。相较于两阶段检测算法(如Faster R-CNN),YOLOv8具有更高的…

数字化营销助企业在生态平台实现内卷突围

在当今数字化时代,企业竞争激烈,内卷化严重。而数字化生态平台建设与数字化营销为企业带来了新机遇。 数字化生态平台意义重大。它能整合企业内外资源,提高运营效率。打破地域限制,拓展市场,吸引更多客户。还能为企业创…

TCP——Socket

应用进程只借助Socket API发和收但是不关心他是怎么进行传和收的 数据结构 图示Socket连接 捆绑属于隐式捆绑

如何快速解决谷歌网站页面收录难题?

在外贸网站的运营中,页面无法被谷歌收录是一个常见的困扰。即便你的内容再优秀,如果搜索引擎的爬虫无法抓取到你的页面,那一切努力都将白费。而GPC爬虫池服务可以帮助你快速解决网站页面的收录问题。它通过千万级的爬虫池资源,强力…

【信创】银河麒麟安装程序记录

银河麒麟安装程序记录 Step1 添加外网yum源Step2 安装软件安装MySQL(8.0.32)安装JDK安装jdk17安装Nginx(1.21.5)安装Redis(4.0.14)安装Emqx(4.4.19)安装RocketMQ(5.1.4&a…

基于STM32的多功能MP3播放器

基于STM32的多功能MP3播放器 基于STM32的多功能MP3播放器一、项目背景与意义二、系统设计与实现2.1 硬件设计2.2 软件设计2.3 系统调试 三、功能实现与展望四、结论五、附录 基于STM32的多功能MP3播放器 在数字化时代,多功能播放器已成为我们生活中不可或缺的一部分…

Maven骨灰级教程:从小白到高手的终极指南(一)

目录 1. Maven的概念 1.1 什么是Maven 1.2 什么是依赖管理 1.3 什么是项目构建 1.4 Maven的应用场景 1.5 为什么使用Maven 1.6 Maven模型 2.初识Maven 2.1 Maven安装 2.1.1 安装准备 2.1.2 Maven安装目录分析 2.1.3 Maven的环境变量 2.2 Maven的第一个项目 2.2.1…

学习threejs,THREE.ConvexGeometry凸包高级几何体

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️THREE.ConvexGeometry凸包高…

Http模块总体设计

在前面的文章中,我们已经实现了一个主从Reactor模型的服务器类,但是由于他只是一个服务器,不涉及任何业务以及协议的处理,那么为了方便用户使用,我们可以预先设置好协议的支持,只需要让用户进行业务处理就行…

【Qt】Windows下Qt连接DM数据库

环境信息:W11 Qt5.12及以上 dm8 QODBC达梦 Windows环境创建ODBC数据源 使用 ODBC 方法访问 DM 数据库服务器之前,必须先配置 ODBC 数据源 在控制面板Windows工具中显示ODBC数据源管理器 ODBC数据源管理器标签 用户 DSN:添加、删除或配置本…

jmeter中发送post请求遇到的问题

用jmeter发送post请求,把请求参数放在Body Data处,参数都写得正确,但没想到结果每次都报错,直接响应结果乱七八糟,改成用Parameters,反而不乱报错了。 上图 请求里如下 另外一些请求也是这样 这个响应结果也是错误的…

⌈ 传知代码 ⌋ 农作物病害分类(Web端实现)

💛前情提要💛 本文是传知代码平台中的相关前沿知识与技术的分享~ 接下来我们即将进入一个全新的空间,对技术有一个全新的视角~ 本文所涉及所有资源均在传知代码平台可获取 以下的内容一定会让你对AI 赋能时代有一个颠覆性的认识哦&#x…

国家超算互联网测评——用一分钱的显卡做大模型微调

大家好,我是刘明,明志科技创始人,华为昇思MindSpore布道师。 技术上主攻前端开发、鸿蒙开发和AI算法研究。 努力为大家带来持续的技术分享,如果你也喜欢我的文章,就点个关注吧 背景信息 算力、算法、数据,…

Vulhub Rickdiculously Easy 靶机详解

项目地址 https://download.vulnhub.com/rickdiculouslyeasy/RickdiculouslyEasy.zip实验过程 将下载好的靶机导入到VMware中,设置网络模式为NAT模式,然后开启靶机虚拟机 使用nmap进行主机发现,获取靶机IP地址 nmap 192.168.47.1-254根据对…

1971. 寻找图中是否存在路径

有一个具有 n 个顶点的 双向 图,其中每个顶点标记从 0 到 n - 1(包含 0 和 n - 1)。图中的边用一个二维整数数组 edges 表示,其中 edges[i] [ui, vi] 表示顶点 ui 和顶点 vi 之间的双向边。 每个顶点对由 最多一条 边连接&#x…