得物社区亿级ES数据搜索性能调优实践

news2024/12/24 3:01:36

1.背景

2020年以来内容标注结果搜索就是社区中后台业务的核心高频使用场景之一,为了支撑复杂的后台搜索,我们将社区内容的关键信息额外存了一份到Elasticsearch中作为二级索引使用。随着标注业务的细分、迭代和时间的推移,这个索引的文档数和搜索的RT开始逐步上升。

下面是这个索引当前的监控情况。

本文介绍社区利用IndexSorting,将亿级文档搜索性能由最开始2000ms优化到50ms的过程。如果大家遇到相似的问题和场景,相信看完之后一定能够一行代码成吨收益。

2.探索过程

2.1 初步优化

最开始需求很简单,只需要取最新发布的动态分页展示。这时候实现也是简单粗暴,满足功能即可。查询语句如下:

GET /content-alias/_search
{
  "track_total_hits": true,
  "sort": [
    {
      "publish_time": {
        "order": "desc"
      }
    }
  ],
  "size": 10
}

由于首页加载时没加任何筛选条件,于是变成了从亿级内容库中找出最新发布的10条内容

针对这个查询很容易发现问题出现在大结果集的排序,要解决问题,自然的想到了两条路径:

  1. 去掉sort

  2. 缩小结果集

经过用户诉求和开发成本的权衡后,当时决定“先扛住,再优化”:在用户打开首页的时候,默认增加“发布时间在最近一周内”的筛选条件,这时语句变成了:

GET /content-alias/_search
{
  "track_total_hits": true,
  "query": {
    "bool": {
      "filter": [
        {
          "range": {
            "publish_time": {
              "gte": 1678550400,
              "lt": 1679155200
            }
          }
        }
      ]
    }
  },
  "sort": [
    {
      "publish_time": {
        "order": "desc"
      }
    }
  ],
  "size": 10
}

这个改动上线后,效果可以说是立竿见影,首页加载速度立马降到了200ms以内,平均RT60ms。这次改动也为我们减小了来自业务的压力,为后续的优化争取了不少调研的时间。

虽然搜索首页的加载速度明显快了,但是并没有实际解决根本问题——ES大结果集指定字段排序还是很慢。对业务来说,结果页上的一些边界功能的体验依旧不能尽如人意,比如导出、全量动态的搜索等等。这一点从监控上也能够较明显的看出:慢查询还是存在,并且还伴随着少量的接口超时。

老实说这个时期我们对于ES的了解还比较基础,只能说会用、知道分片、倒排索引、相关性打分,然后就没有了。总之我们有了方向,开始奋起直追。

2.2 细致打磨

2.2.1 知识积累

带着之前遗留的问题,我们开始开始重新出发,从头学习ES。要优化搜索性能,首先我们要知道的是搜索是怎么做的。下面我们就以一个最简单的搜索为例,拆解一下整个搜索请求的过程。

(1)搜索请求

GET /content-alias/_search
{
  "track_total_hits":false,
  "query": {
    "bool": {
      "filter": [
        {
          "term": {
            "category_id.keyword": "xxxxxxxx"
          }
        }
      ]
    }
  }, 
  "size": 10
}

 

精确查询category_id为"xxxxxxxx"的文档,取10条数据,不需要排序,不需要总数

总流程分3步:

  1. 客户端发起请求到Node1

  2. Node1作为协调节点,将请求转发到索引的每个主分片或副分片中,每个分片在本地执行查询。

  3. 每个节点返回各自的数据,协调节点汇总后返回给客户端

如图可以大致描绘这个过程:

我们知道ES是依赖Lucene提供的能力,真正的搜索发生在Lucene中,还需要继续了解Lucene中的搜索过程。

(2)Lucene

Lucene中包含了四种基本数据类型,分别是:

  • Index:索引,由很多的Document组成。

  • Document:由很多的Field组成,是Index和Search的最小单位。

  • Field:由很多的Term组成,包括Field Name和Field Value。

  • Term:由很多的字节组成。一般将Text类型的Field Value分词之后的每个最小单元叫做Term。

在介绍Lucene index的搜索过程之前,这里先说一下组成Lucene index的最小数据存储单元——Segment。

Lucene index由许许多多的Segment组成,每一个Segment里面包含着文档的Term字典、Term字典的倒排表、文档的列式存储DocValues以及正排索引。它能够独立的直接对外提供搜索功能,几乎是一个缩小版的Lucene index。

(3)Term字典和倒排表

上图是Term字典和其倒排表的大致样子

当然这里还有些重要数据结构,比如:

  • FST:term索引,在内存中构建。可以快速实现单Term、Term范围、Term前缀和通配符查询。

  • BKD-Tree:用于数值类型(包括空间点)的快速查找。

  • SkipList:倒排表的数据结构

这里面的细节比较多,感兴趣的可以单独了解,这里不影响我们的整体搜索流程,不过多赘述。

有了Term字典和倒排表我们就能直接拿到搜索条件匹配的结果集了,接下来只需要通过docID去正排索引中取回整个doc然后返回就完事儿了。

这是ES的基本盘理论上不会慢,我们猜测慢查询发生在排序上。那给请求加一个排序会发生什么呢?比如:

GET /content-alias/_search
{
  "track_total_hits":false,
  "query": {
    "bool": {
      "filter": [
        {
          "term": {
            "category_id.keyword": "xxxxxxxx"
          }
        }
      ]
    }
  }, 
  "sort": [
    {
      "publish_time": {
        "order": "desc"
      }
    }
  ],
  "size": 10
}

通过倒排表拿到的docId是无序的,现在指定了排序字段,最简单直接的办法是全部取出来,然后排序取前10条。这样固然能实现效果,但是效率却是可想而知。那么Lucene是怎么解决的呢?

(4)DocValues

倒排索引能够解决从词到文档的快速映射,但需要对检索结果进行分类、排序、数学计算等聚合操作时需要文档号到值的快速映射。而正排索引又过于臃肿庞大,怎么办呢?

这时候各位大佬可能就直接想到了列式存储,没有错,Lucene就引入了基于docId的列式存储结构——DocValues

文档号

列值

列值映射

0

2023-01-13

2

1

2023-01-12

1

2

2023-03-13

3

比如上表中的DocValues=[2023-01-13, 2023-01-12,2023-03-13]

如果列值是字符串,Lucene会把原来的字符串值按照字典排序生成数字ID,这样的预处理能进一步加快排序速度。于是我们得到了DocValues=[2, 1, 3]

Docvalues的列式存储形式可以加快我们的遍历的速度。到这里一个常规的搜索取前N条记录的请求算是真正的拆解完成。这里不讨论词频、相关性打分、聚合等功能的分析,所以本文对整个过程和数据结构做了大幅简化。如果对这部分感兴趣,欢迎一起讨论。

此时排序慢的问题也逐渐浮出了水面:尽管Docvalues又是列式存储,又是将复杂值预处理为简单值避免了查询时的复杂比较,但是依旧架不住我们需要排序的数据集过大。

看起来ES尽力了,它好像确实不擅长解决我们这个场景的慢查询问题。

不过有灵性的各位读者肯定想到了,如果能把倒排表按照我们预先指定的顺序存储好,就能省下整个排序的时间

2.2.2 IndexSorting

很快ES官方文档《How to tune for search speed》中提到了一个搜索优化手段——索引排序(Index Sorting)出现在了我们的视野中。

从文档上的描述我们可以知道,索引排序对于搜索性能的提升主要在两个方面:

  1. 对于多条件并列查询(a and b and ...),索引排序可以帮助我们把不符合条件的文档存在一起,跳过大量的不匹配的文档。但是此技巧仅适用于经常用于筛选的低基数字段。

  2. 提前中断:当搜索排序和索引排序指定的顺序一样时,只需要比较每个段的前 N 个文档,其他的文档仅需要用于总数计算。比如:我们的文档中有一个时间戳,而我们经常需要按照时间戳来搜索和排序,这时候如果指定的索引排序和搜索排序一致,通常能够极大的提高搜索排序的效率。

提前中断!!!简直是缺什么来什么,于是我们开始围绕这一点展开调研。

(1)开启索引排序

PUT /content
{
    "settings": {
        "index": {
            "sort.field": "publish_time", // 可指定多个字段
            "sort.order": "desc"
        }
    },
    "mappings": {
        "properties": {
            "content_id": {
                "type": "long"
            },
            "publish_time": {
                "type": "long"
            },
            ...
        }
    }
}

如上面的例子,文档在写入磁盘时会按照 publish_time 字段的递减序进行排序。

在前面的段落中我们反复提到了docID和正排索引。这里我们顺带简单介绍下他们的关系,首先Segment中的每个文档,都会被分配一个docID,docID从0开始,顺序分配。在没有IndexSorting时,docID是按照文档写入的顺序进行分配的,在设置了IndexSorting之后,docID的顺序就与IndexSorting的顺序一致。

下图描述了docID和正排索引的关系:

 那么再次回头来看看我们最开始的查询: 

在Lucene中进行查询时,发现结果集的倒排表顺序刚好是publish_time降序排序的,所以查询到前10条数据之后即可返回,这就做到了提前中断,省下了排序开销。那么代价是什么呢?

(2)代价

IndexSorting和查询时排序不一样,本质是在写入时对数据进行预处理。所以排序字段只能在创建时指定且不可更改。并且由于写入时要对数据进行排序,所以也会对写入性能也会有一定负面影响。

之前我们提到了Lucene本身对排序也有各种优化,所以如果搜索结果集本身没有那么多的数据,那么就算不开启这个功能,也能有不错的RT。

另外由于多数时候还是要计算总数,所以开启索引排序之后只能提前中断排序过程,还是要对结果集的总数进行count。如果能够不查总数,或者说通过另外的方式获取总数,那么能够更好的利用这个特性。

小结:

  1. 针对大结果集的排序取前N条的场景下,索引排序能显著提高搜索性能

  2. 索引排序只能在创建索引时指定,不可更改。如果你有多个指定字段排序的场景,可能需要慎重选择排序字段。

  3. 不获取总数能更好的利用索引排序

  4. 开启索引排序会一定程度降低写性能。这里贴一条ElaticsearchBenchmarks的数据截图供大家参考。

见:Elasticsearch Benchmarks

2.3 效果

由于我们的业务远远没有达到ES的写入瓶颈,而且也少有频繁变更排序字段的场景。在经过短暂的权衡之后,确定索引排序正是我们需要的,于是开始使用线上真实数据对索引排序的效果进行简单的性能测试。

(1)性能测试:首页

(2)性能测试:其他

这里开启索引排序后,随机几个常规条件和时间窗口的搜索组合测试

可以看到效果非常明显,没有以前的那种尖刺,RT也很稳定,于是我们决定正式上线这个功能。

(3)线上效果

慢查询

整体前后对比

和我们预期的基本一样,搜索RT大幅降低,慢查询完全消失。

2.4 后续优化

在探索过程中,其实还发现了一些其他的优化手段,鉴于开发成本和收益,有些我们并没有完全应用于生产环境。这里列出其中几点,希望能给大家一些启发。

  1. 不获取总数: 大部分场景下,不查询总数都能减少开销,提高性能。ES 7.x之后的搜索接口默认不返回总数了,由此可见一斑。

  2. 自定义routing规则: 从上文的查询过程我们可以看到,ES会轮询所有分片以获取想要的数据,如果我们能控制数据的分片落点,那么也能节省不少开销。比如说:如果我们将来如果有大量的场景都是查某个用户的动态,那么可以控制按照用户分片,这样就避免了分片轮询,也能提升搜索效率。

  3. keyword: 不是所有的数字都应该按照数值字段来存,如果你的数字值很少用于范围查询,但是经常被用作term查询,并且对搜索rt很敏感。那么keyword才是最适合的存储方式。

  4. 数据预处理:就像IndexSoting一样,如果我们能够在写入时预处理好数据,也能节省搜索时的开销。这一点配合_ingest/pipeline 也许能发挥意想不到的效果。

3.写在最后

相信看到这里的大家都能看出,我们的优化中也没有涉及到十分高深的技术难点,我们只是在解决问题的过程中,逐步从小白转变成了一个初学者。来一个大牛也许从一开始就能直接绕过我们的弯路,不过万里之行始于足下,最后这里总结一点经验和感受分享给大家,希望能给与我们一样的初学者一些参考。

ES在大结果集指定字段排序的场景下性能不佳,我们使用时应该尽量避免出现这种场景。如果无法避免,合适的IndexSorting设置能大幅提升排序性能

优化永无止境,权衡好成本和收益,集中资源解决最优先和重要的问题才是我们应该做的。

文:海带

线下活动推荐:

时间:5月14日(周日)14:00-18:00

主题:得物技术沙龙第17期-稳定生产专场

地点:上海市杨浦区黄兴路221号互联宝地C2栋5楼 培训教室

活动亮点:你知道得物App稳定性是怎么从99.91%提升到99.996%吗?《得物技术沙龙-稳定生产专题》将揭秘,不仅如此,我们还特别邀请了来自AWS(亚马逊中国)、SkyWalking 社区、Greptime(格睿科技)等知名企业的技术专家,将和大家分享他们在保障系统稳定性方面的经验和心得。

点击了解详情:叮~查收你的稳定生产得物技术沙龙邀请函

本文属得物技术原创,来源于:得物技术官网

未经得物技术许可严禁转载,否则依法追究法律责任!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/506683.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VisualStudio2022配置PCL点云库教程

属性管理器 首先,打开属性管理器:视图–其他窗口–属性管理器 打开后如图所示,选中Debug|x64,右键单击,选择属性 如图所示,需要修改的是VC目录中的包含目录和库目录: ** 包含目录 添加内容…

Andorid:日常学习笔记(3)——掌握日志工具的使用

使用Android的日志工具Log 方法: Android中的日志工具类为Log,这个类提供了如下方法来供我们打印日志: 使用方法: Log.d("MainActivity","onCreate execute"); 第一个参数tag:一般传入当前类名就好,主要用于队打印信息进行过滤.第二个参数:msg,具体想打…

如何成为一位测试开发工程师?测试开发的核心竞争力...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 抛出一个问题&…

【操作系统】第2章进程同步、PV操作、死锁

一、进程同步 1、 定义 (1) 临界资源:把一个时间段内只允许一个进程使用的资源称为临界资源。许多物理设备(摄像头、打印机)和许多变量、数据、内存缓冲区都属于临界资源。 对临界资源的访问必须互斥地进行。 ① 进入…

【软考】中级 | 数据库系统工程师 | 笔记总结

📢博客主页:肩匣与橘 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正! 📢本文由肩匣与橘编写,首发于CSDN🙉 📢生活依旧是美好而又温柔的,你也…

解决winstore下载mincraft 出现错误提示的问题

mincraft 点开显示此应用无法在你的电脑上运行,去C:\XboxGames\Minecraft Launcher\Content下看了下: 但是别人电脑上相同目录下一样的文件能运行,于是选择重装,但是刚开始下载就遇到这个问题: 商店提示这个 点开一…

Ansys Zemax | 计算任意温度和压强下的折射率

概述 这篇文章介绍了OpticStudio如何计算材料在任意输入波长、环境温度和压强下的折射率。 介绍 通常情况下有两种参考折射率的测量方法:绝对测量和相对测量。其中绝对测量以真空为参考介质;相对测量则是以空气(摄氏温度20,一个标…

MySQL之盛放记录的大盒子 【InnoDB 数据页结构】

前言 本文章收录在MySQL性能优化原理实战专栏,点击此处查看更多优质内容。 本文摘录自 ▪ 小孩子4919《MySQL是怎样运行的:从根儿上理解MySQL》 学完了记录结构,我们该学数据页的结构,前边我们简单的提了一下页的概念&#xff…

臻图信息利用数字孪生构建生态环境智慧监测系统

2月27日,中共中央国务院印发《数字中国建设整体布局规划》中指出,要推动生态环境智慧治理,加快构建智慧高效的生态环境信息化体系,建设绿色智慧的数字生态文明。 生态环境监测是生态环境保护的基础,是生态文明建设的重…

企业什么时候需要ERP系统?

对于许多成长中的企业来说,是否需要ERP系统不是问题,而是何时需要的问题。随着企业的发展,其生成的数据量和要跟踪的数据源也在不断增加。在多个平台上管理所有这些信息变得成本昂贵、费时,而且容易出现管理不善的情况。 虽然对于…

性能测试入门实践路线图

我转行做软件测试工作已有六年多了, 从功能到自动化测试,然后负责性能测试团队和质量团队的技术专项治理,再到测试专家角色,负责整个技术项目的产品/运营和质量保障工作。 其中性能测试和线上稳定性保障,算是我最擅长…

物联网|IAR集成开发环境简介|cc254核心板硬件资源|物联网之蓝牙4.0 BLE基础-学习笔记(3)

文章目录 4、IAR集成开发环境简介5、 cc254核心板硬件资源 4、IAR集成开发环境简介 完整稳定的专业嵌入式开发环境,对不同的处理器有统一的用户界面,支持35种以上的MCU,包括8,16,32位, 完全兼容C语言的 高…

女孩子转数据分析难吗?难在哪里?

对于数据分析,很多人乍一听会觉得没啥技术难度,是个适合女孩子的专业。我们面对很多零基础小白也是用通俗的语言来形容这个专业:一般是通过Excel或者power BI工具对数据进行分析,制作成可视化的报表给领导层,为公司业务…

VS2022编译libiconv-1.17

需求概述 获得最新版本的windows下可用的libiconv静态库。 解决方案 概述 使用VS2022编译libiconv-1.17。需要对源码手动进行配置。 本文所述的方法同样适用于动态库,并且理论上适用于VS2010~2022所有版本。 如果你不在乎libiconv的版本,可以参考 …

DevOps死了吗?平台工程能否取代DevOps?

最近, Scott Carey 发表了一篇调查文章,喊出了一些开发者的心声:“扯淡的DevOps,我们开发者根本不想做运维!”除此之外,软件工程师兼DevOps评论员Sid Palas也在推特上写道,“DevOps已死&#xf…

C++知识点 -- 特殊类设计

C知识点 – 特殊类设计 文章目录 C知识点 -- 特殊类设计一、不能被拷贝的类二、 只能在堆上创建对象的类三、 只能在栈上创建对象的类四、 不能被继承的类五、 只能创建一个对象的类(单例模式)1.饿汉模式2.懒汉模式3. 单例对象释放问题: 一、…

【Python入门篇】——Python中判断语句(布尔类型,比较运算符,if语句)

作者简介: 辭七七,目前大一,正在学习C/C,Java,Python等 作者主页: 七七的个人主页 文章收录专栏: Python入门,本专栏主要内容为Python的基础语法,Python中的选择循环语句…

Verilog 编程——奇偶分频(50%占空)

引言 最近准备一些笔试面试,想再把时钟奇偶分频的再整理一下。 我之前写过一个PWM产生的模块,里面有任意频率/占空比的时钟生成。可以参考: 基于FPGA的PWM发生器设计https://blog.csdn.net/qq_43045275/article/details/128365705?ops_re…

Scala学习(一)

1.什么是Scala Scala将面向对象和函数式编程结合成一种简洁的高级语言。Scala的静态类型有助于避免复杂应用程序中的错误。 1.1 为什么要学习Scala? Spark基于内存的大数据计算框架,而Spark就是Scala开发的。所以为了学习好Spark需要掌握Scala语言。 …

learn C++ NO.3 ——类和对象(1)

1.初步理解面向过程和面向对象 C语言是面向过程的高级编程语言,而C是面向对象的高级编程语言。那么两者有什么区别呢?且看下图分析。 面向过程语言就是逐步拆分并解决问题。其特点是过程化和模块化,数据和对数据的操作是分离的。 由于面向过…