Elasticsearch scroll 之滚动查询

news2024/12/27 9:00:24

Elasticsearch scroll 之滚动查询

Elasticsearch 的 Scroll API 是一种用于处理大规模数据集的机制,特别是在需要从索引中检索大量数据时。通常情况下,Elasticsearch 的搜索请求会有一个结果集大小的限制 (from+size 的检索数量默认是 10,000 条记录),而 Scroll API 允许你绕过这个限制,通过滚动的方式逐步获取数据

关键概念

  • Scroll Context(滚动上下文)
    • 当你第一次发起一个滚动请求时,Elasticsearch 会创建一个滚动上下文。这个上下文保存了搜索的状态和位置,以便在后续请求中继续检索数据
    • 滚动上下文是有状态的,它在服务器端保存了一段时间 (由你指定的超时时间决定)
  • Scroll ID(滚动 ID)
    • 每次滚动请求都会返回一个scrollId,这是一个唯一标识符,用于标识和管理滚动上下文
    • 你需要在后续的滚动请求中提供这个scrollId,以便 Elasticsearch 知道从哪里继续检索数据
  • Timeout(超时时间)
    • 你可以为滚动上下文指定一个超时时间,这个时间决定了滚动上下文在服务器端保持活跃的时间
    • 如果在超时时间内没有新的滚动请求,滚动上下文会被自动清除

工作原理

  • 初始请求
    • 你首先发起一个搜索请求,并指定滚动参数 (如超时时间)。这个请求会返回初始的搜索结果和一个scrollId
  • 后续请求
    • 使用返回的scrollId发起后续的滚动请求。每个请求都会返回一批新的结果和一个新的scrollId
    • 你继续使用新的scrollId进行后续请求,直到没有更多结果返回
  • 清除滚动上下文
    • 当你完成数据检索后,应该显式地清除滚动上下文,以释放服务器资源。这可以通过ClearScrollRequest来实现

Java 实现

package com.xxx;

import org.elasticsearch.action.search.ClearScrollRequest;
import org.elasticsearch.action.search.SearchRequest;
import org.elasticsearch.action.search.SearchResponse;
import org.elasticsearch.action.search.SearchScrollRequest;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestHighLevelClient;
import org.elasticsearch.common.unit.TimeValue;
import org.elasticsearch.index.query.BoolQueryBuilder;
import org.elasticsearch.index.query.QueryBuilders;
import org.elasticsearch.search.SearchHit;
import org.elasticsearch.search.builder.SearchSourceBuilder;
import org.enthusa.avatar.core.utils.DateUtil;
import org.enthusa.avatar.utils.task.TaskModel;
import org.springframework.stereotype.Component;


@Slf4j
@Component
public class ESScrollTask extends AbstractTask {
    
    private static final String[] INCLUDE_FIELDS = {"entity_id", "job_name", "job_city", "edu_level", "locations", "company_id", "career_job_id2", "salary"};
    private static final String[] EXCLUDE_FIELDS = {};

    public static final int ES_EACH_SIZE = 500;
    public static final int ES_TOTAL_SIZE = 10000;

    @Resource
    protected RestHighLevelClient utEsClient;

    private List<PlatformJob> termSearchWithScroll(Integer recruitType) {
        final long scrollTimeout = 60000;
        List<PlatformJob> platformJobs = new ArrayList<>();
        try {
            SearchRequest searchRequest = new SearchRequest(Constants.ES_JOB_ITEM);
            SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
			// 自定义查询语句
            searchSourceBuilder.query(buildQuery(recruitType));
            searchSourceBuilder.fetchSource(INCLUDE_FIELDS, EXCLUDE_FIELDS);
            searchSourceBuilder.size(ES_EACH_SIZE);
            searchRequest.source(searchSourceBuilder);
            // 滚动查询及超时时间
            searchRequest.scroll(TimeValue.timeValueMillis(scrollTimeout));

            SearchResponse searchResponse = utEsClient.search(searchRequest, RequestOptions.DEFAULT);
            String scrollId = searchResponse.getScrollId();
            SearchHit[] searchHits = searchResponse.getHits().getHits();

            while (searchHits != null && searchHits.length > 0 && platformJobs.size() < ES_TOTAL_SIZE) {
                for (SearchHit hit : searchHits) {
                	// 自定义业务
                    PlatformJob platformJob = new PlatformJob();
                    platformJob.setJobId(IdMapping.toId((Long) hit.getSourceAsMap().get("entity_id")));
                    platformJob.setJobName((String) hit.getSourceAsMap().get("job_name"));
                    platformJob.setJobCity((String) hit.getSourceAsMap().get("job_city"));
                    platformJob.setEducation(eduLevelMap.get((Integer) hit.getSourceAsMap().get("edu_level")));
                    platformJob.setLocations((String) hit.getSourceAsMap().get("locations"));
                    platformJob.setCompanyId((Integer) hit.getSourceAsMap().get("company_id"));
                    platformJob.setCareerJobId2((Integer) hit.getSourceAsMap().get("career_job_id2"));
                    platformJob.setSalary((String) hit.getSourceAsMap().get("salary"));
                    platformJobs.add(platformJob);
                }
				
                SearchScrollRequest scrollRequest = new SearchScrollRequest(scrollId);
                scrollRequest.scroll(TimeValue.timeValueMillis(scrollTimeout));
                searchResponse = utEsClient.scroll(scrollRequest, RequestOptions.DEFAULT);
                scrollId = searchResponse.getScrollId();
                searchHits = searchResponse.getHits().getHits();
            }

			// 清除滚动上下文
            ClearScrollRequest clearScrollRequest = new ClearScrollRequest();
            clearScrollRequest.addScrollId(scrollId);
            utEsClient.clearScroll(clearScrollRequest, RequestOptions.DEFAULT);
        } catch (Exception e) {
            log.info("es search error", e);
            return Collections.emptyList();
        }
        return platformJobs;
    }

    public BoolQueryBuilder buildQuery(Integer recruitType) {
        BoolQueryBuilder queryBuilder = QueryBuilders.boolQuery();
        queryBuilder.filter(QueryBuilders.termQuery("content_type", IdType.PLATFORM_JOB.toString()));
        queryBuilder.filter(QueryBuilders.termQuery("status", 0));
        queryBuilder.filter(QueryBuilders.termQuery("recruit_type", recruitType));
        return queryBuilder;
    }
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2253956.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

谈论 PHP与XSS

本文将讨论一些脚本攻击问题&#xff0c;以及如何解决XSS脚本攻击问题 美好的周末就用来学点知识吧&#xff01;&#xff01;&#xff01; ———————————————————————————————————— 文章目录 XSS跨站脚本攻击XSS是什么XSS类型&#xff1a;反…

用micropython 操作stm32f4单片机的定时器实现蜂鸣器驱动

import pyb import time # 初始化引脚和定时器通道作为PWM输出 # 注意&#xff1a;这里我们假设您使用的是支持PWM的引脚和定时器 # 在不同的MicroPython板上&#xff0c;支持的引脚和定时器可能不同 # 请查阅您的板的文档以确认正确的引脚和定时器 buzzer_pin pyb.Pin(PD15,…

Ubuntu20.04双系统安装详解(内容详细,一文通关!)

Ubuntu20.04作为现今ubuntu非常稳定的一个版本&#xff0c;是大家入门ubnutu的非常奈斯的版本选择。接下来介绍一下在windows上配置ubuntu双系统的方式&#xff0c;该篇博文主要参考b站用户“机器人工匠阿杰”的双系统安装教学视频&#xff0c;传送门如下&#xff1a; &#x…

100V降压恒流芯片SL2516D 内置MOS管 支持15W功率输出 电动车照明

一、SL2516D芯片概述 SL2516D是一款新一代车灯照明专用降压恒流IC&#xff0c;支持高达100V的输入电压范围&#xff0c;并内置了100V功率MOS。它采用ESOP8封装&#xff0c;具有外围电路简单、高效能、高精度和稳定的恒流输出特性。 二、内置MOS管 SL2516D芯片内置了100V功率…

Microi吾码|.NET、VUE快速搭建项目,低代码便捷开发教程

Microi吾码&#xff5c;VUE快速搭建项目&#xff0c;低代码便捷开发教程 一、摘要二、Microi吾码介绍2.1 功能介绍2.2 团队介绍2.3 上线项目案例 三、VUE中使用Microi吾码3.1 前期了解3.2 创建第一个低代码应用3.3 接口API使用说明3.4 引擎界面可视化配置&#xff0c;生成API3.…

线程信号量 Linux环境 C语言实现

既可以解决多个同类共享资源的互斥问题&#xff0c;也可以解决简易的同步问题 头文件&#xff1a;#include <semaphore.h> 类型&#xff1a;sem_t 初始化&#xff1a;int sem_init(sem_t *sem, int pshared, unsigned int value); //程序中第一次对指定信号量调用p、v操…

解决 Maven 部署中的 Artifact 覆盖问题:实战经验分享20241204

&#x1f6e0;️ 解决 Maven 部署中的 Artifact 覆盖问题&#xff1a;实战经验分享 &#x1f4cc; 引言 在软件开发过程中&#xff0c;持续集成和持续部署&#xff08;CI/CD&#xff09;是提高开发效率和代码质量的关键手段。Hudson 和 Maven 是两种广泛使用的工具&#xff0…

【Linux】文件描述符fd

1.前置预备 文件 内容 属性访问文件之前&#xff0c;都必须先打开他 #include<stdio.h> int main() { FILE* fpfopen("log.txt","w"); if(fpNULL) { perror("fopen"); return 1; } fclose(fp); return 0…

JVM 性能调优 -- JVM 调优常用网站

前言&#xff1a; 上一篇分享了 JDK 自带的常用的 JVM 调优命令和图形化界面工具&#xff0c;本篇我们分享一下常用的第三方辅助 JVM 调优网站。 JVM 系列文章传送门 初识 JVM&#xff08;Java 虚拟机&#xff09; 深入理解 JVM&#xff08;Java 虚拟机&#xff09; 一文搞…

数据结构自测5

第6章 树和二叉树 自测卷解答 一、下面是有关二叉树的叙述&#xff0c;请判断正误&#xff08;每小题1分&#xff0c;共10分&#xff09; &#xff08; √ &#xff09;1. 若二叉树用二叉链表作存贮结构&#xff0c;则在n个结点的二叉树链表中只有n—1个非空指针域。 &#xff…

优傲协作机器人 Remote TCP Toolpath URCap(操作记录)

目录 一、新机设置项 1、设置管理员密码 2、设置安全密码 3、设置负载 二、激活 Remote TCP & Toolpath URCap 1、插入U盘 2、打开激活面板 3、导入许可证 4、查看是否激活成功 5、启用功能 三、使用流程&#xff08;官方&#xff09; 步骤一 步骤二 步骤三 …

【数据库系列】Spring Boot如何配置Flyway的回调函数

Flyway 提供了回调机制&#xff0c;使您能够在特定的数据库迁移事件发生时执行自定义逻辑。通过实现 Flyway 的回调接口&#xff0c;可以在迁移前后执行操作&#xff0c;如记录日志、执行额外的 SQL 语句等。 1. 创建自定义回调类 要配置 Flyway 的回调函数&#xff0c;需要创…

正点原子imx6ull配置MQTT客户端上传数据到Ubuntu MQTT服务器

目录 使用QT自带的MQTT模块部署客户端创建一个class专门用于MQTT客户端通讯使用QT在ui界面上生成按钮在Windows上订阅相应主题测试在imx6ull上订阅Windows发布的消息 在上一篇中介绍了在Ubuntu22.04的Docker中部署MQTT服务器&#xff0c;然后在window上测试订阅和发布&#xff…

3D数据大屏实现过程,使用echarts、Next.js

&#x1f4dc; 本文主要内容 数据大屏自适应方案动效 echarts&#xff1a; 3D 立体柱状图动态流光折线图 3D 地球&#xff08;飞线、柱状图&#xff09;无限滚动列表 &#x1f50d; 大屏效果 数据大屏&#xff1a; 点击预览 &#x1f579; 运行条件 next 12.3.4echarts 5.4…

第一部分 网络安全

网络安全是利用各种网络监控和管理技术措施&#xff0c;对网络系统的硬件、软件及系统中的数据源实施保护&#xff0c;使其不会因为一些不利因素遭到破坏&#xff0c;从而保证网络系统连续、安全、可靠的运行。 一、信息泄露与篡改 四种类型&#xff1a;截获信息&#xff0c;…

机器学习--绪论

开启这一系列文章的初衷&#xff0c;是希望搭建一座通向机器学习世界的桥梁&#xff0c;为有志于探索这一领域的读者提供系统性指引和实践经验分享。随着人工智能和大数据技术的迅猛发展&#xff0c;机器学习已成为推动技术创新和社会变革的重要驱动力。从智能推荐系统到自然语…

家庭财务管理系统的设计与实现ssm小程序+论文源码调试讲解

2系统关键技术 2.1 微信小程序 微信小程序&#xff0c;简称小程序&#xff0c;英文名Mini Program&#xff0c;是一种全新的连接用户与服务的方式&#xff0c;可以快速访问、快速传播&#xff0c;并具有良好的使用体验。 小程序的主要开发语言是JavaScript&#xff0c;它与普…

MySQL初学之旅(5)详解查询

目录 1.前言 2.正文 2.1聚合查询 2.1.1count() 2.1.2sum() 2.1.3avg() 2.1.4max() 2.1.5min() 2.1.6总结 2.2分组查询 2.2.1group by字句 2.2.2having字句 2.2.3group by与having的关系 2.3联合查询 2.3.1笛卡尔积 2.3.2内连接 2.3.3外连接 2.3.4自连接 2.3…

Java Web 2 JS Vue快速入门

一 JS快速入门 1.什么是JavaScript&#xff1f; 页面交互&#xff1a; 页面交互是指用户与网页之间的互动过程。例如&#xff0c;当用户点击一个按钮&#xff0c;网页会做出相应的反应&#xff0c;如弹出一个对话框、加载新的内容或者改变页面的样式等&#xff1b;当用户在表…

浅谈MySQL路由

华子目录 mysql-router介绍下载mysql-router安装mysql-router实验 mysql-router介绍 mysql-router是一个对应用程序透明的InnoDB Cluster连接路由服务&#xff0c;提供负载均衡、应用连接故障转移和客户端路由利用路由器的连接路由特性&#xff0c;用户可以编写应用程序来连接到…