Elasticsearch(五)--ES文档的操作(上)---写入文档

news2025/1/12 19:03:00

一、前言

使用ES构建搜索引擎时需要经常对文档进行操作,除了简单的单条文档操作,有时还需要进行批量操作。我们这章主要学习ES文档的增删改的操作,由于涉及到的代码量会比较多,所以分为3篇文章分别说明文档的这个三个操作。那么我们对文档操作的学习除了在kibana客户端之外,还会涉及到java的highLevelClient相应的操作代码。那么话不多说,我们直接开始下面的学习、

二、写入文档

2.1、单条写入文档

在ES中写入文档的请求的类型是POST,其请求形式如下:

POST /${index_name}/_doc/${_id}
{
    #写入的文档数据
}

上面的_id就是ES中的文档_id,这种请求方式是用户直接定义_id值,不使用ES自动生成的_id,请求的数据体即为写入的文档数据,格式是JSON格式。例如,在目标索引中写如下面的数据:

POST /hotel/_doc/001
{
    "name":"miss酒店1",   
    "city":"厦门",
    "price":"1145.14"
}

ES返回的结果如下:
在这里插入图片描述
由以上结果可知,向hotel索引中写入文档成功。另外,ES在返回结果中还会显示文档的版本,这里因为文档刚刚建立,所以当前值为1.
当然,用户也可以不指定文档_id,该_id值将由ES自动生成,其请求形式如下:

POST /${index_name}/_doc
{
    #写入的文档数据
}

例如,写入上面的文档时不指定文档_id,请求的DSL如下:
在这里插入图片描述
在Java高级REST客户端中,单条写入文档需要创建IndexRequest对象并设置对应的索引和_id字段名称,执行时调用客户端的Index()方法并把IndexRequest对象传入即可。index()方法返回IndexResponse对象,通过该对象可以获取当前请求的索引名称、文档_id和版本等。下面的代码演示了向索引中添加单条文档的方法:
首先我们需要一个Hotel实体类,

package com.mbw.pojo;

import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;

@Data
@AllArgsConstructor
@NoArgsConstructor
public class Hotel {
	private String id;    //对应文档_id
	private String index; //对应索引名称
	private Float score;  //对应文档得分
	private Long version; //对应文档的版本号
	private String title; //对应索引中的title
	private String city;  //对应索引中的city
	private Double price; //对应索引中的price
}

这个实体类和前面文章讲解ES客户端那篇是一致的,包括HighLevelClient的建立等代码,这里就不做赘述了,详情大家可以回头看ES客户端的文章
然后我们建立一个ESCreateDocService,并且注入HighLevelClient:

@Service
@Slf4j
public class EsCreateDocService {
    @Autowired
	private RestHighLevelClient client;
}

那么对于单条插入文档,在Java高级REST客户端中,需要创建IndexRequest对象并设置对应的索引和_id字段名称,然后将dataMap(大家可以想像成需要创建输入的数据体)设置进IndexRequest,接着执行时调用客户端的index()方法并把IndexRequest对象传入即可,index()方法返回IndexResponse对象,通过该对象可以获取当前请求的索引名称,文档_id和版本等。下面的代码演示了向索引中添加单条文档的方法。

public Map<String, Object> singleIndexDoc(Map<String, Object> dataMap, String indexName, String indexId) throws IOException {
		IndexRequest indexRequest = new IndexRequest(indexName).id(indexId).source(dataMap);
		IndexResponse indexResponse = client.index(indexRequest, RequestOptions.DEFAULT);//执行写入
		String index = indexResponse.getIndex(); //获取索引名
		String id = indexResponse.getId();  //获取文档ID
		long version = indexResponse.getVersion();  //获取文档版本
		HashMap<String, Object> resultMap = new HashMap<>();
		resultMap.put("index", index);
		resultMap.put("id", id);
		resultMap.put("version", version);
		return resultMap;
	}

然后我们创建一个controller,调用service层的方法即可,那这里之所以输入的参数传hotel,是为了不让前台输入复杂的map类型的json串,将这个json转map的操作交给后台进行。大家当然也可以将传参直接改为service层那样的传参,只不过由于参数涉及到Map,那么只能传json,表单是传不了Map类型的,所以大家一定要把service的三个参数全部放进一个类里,然后通过@RequestBody包装。

@RestController
@Slf4j
public class ESCreateController {
    @PostMapping("/create/doc")
	public FoundationResponse<Map<String, Object>> getResult(@RequestBody Hotel hotel) {
		if (hotel == null || CharSequenceUtil.isBlank(hotel.getIndex())) {
			return FoundationResponse.error(100, "参数错误");
		}
		HashMap<String, Object> dataMap = new HashMap<>();
		dataMap.put("title", hotel.getTitle());
		dataMap.put("city", hotel.getCity());
		dataMap.put("price", hotel.getPrice());
		try {
			Map<String, Object> resultMap = esCreateDocService.singleIndexDoc(dataMap, hotel.getIndex(), hotel.getId());
			return FoundationResponse.success(resultMap);
		} catch (IOException e) {
			log.warn("创建文档发生异常,原因为:{}", e.getMessage());
			return FoundationResponse.error(100, e.getMessage());
		} catch (Exception e) {
			log.error("服务发生异常,原因为:{}", e.getMessage());
			return FoundationResponse.error(100, e.getMessage());
		}
	}
}

接着到postman里验证一下:
在这里插入图片描述
那么这里还需要拓展一个命令,它同样也可以创建文档:

POST /${index_name}/_create/${_id}
{
    #写入的文档数据
}

乍一看这个更像创建文档的命令,确实,它可以创建文档,但是它相较于_doc的创建有一种限制,比如我现在使用_doc创建一条_id已存在的记录:

POST /hotel_5/_doc/019
{
    "name":"miss酒店1",   
    "city":"厦门",
    "price":"1145.14"
}

执行后结果如下图所示,发现创建成功,但是创建不如说成是修改,也就是_doc不仅仅可以创建新的文档,它可以在_id已存在的文档基础上进行修改
在这里插入图片描述
但是如果换成_create呢?

POST /hotel_5/_create/019
{
    "name":"miss酒店1",   
    "city":"厦门",
    "price":"1145.14"
}

执行结果如下图:发现版本冲突,也就是版本已经大于1了,说明这个文档已经存在了,那么_create命令就会失败,这是和_doc命令的区别!
在这里插入图片描述

2.2、批量写入文档

在ES中批量写入文档的请求类型是POST,其请求类型如下:

POST /_bulk    //批量请求
{"index":{"_index":"${index_name}","_id":"${_id}"}}  //指定批量写入的请求
{...}
{"index":{"_index":"${index_name}","_id":"${_id}"}}  //设定写入的文档内容
{...}
{"index":{"_index":"${index_name}","_id":"${_id}"}}
{...}

请求体的第一行表示写入的第一条文档对应的元数据,其中,Index_name表示写入的目标索引,即写入的是哪个索引的哪个文档,第2行表示数据体,第3行表示写入的第二条文档对应的元数据,第4行表示数据体。以此类推,在一次请求里可以写入对条数据。记住,批量操作每一行代表的格式是固定的,不能不如你第一行的内容加个换行符,这样会报错,并且批量操作不允许存在换行符。下面将向hotel_order索引中批量写入3条酒店入住记录数据。

POST /_bulk
{"index":{"_index":"hotel_order","_id":"001"}}
{"username":"Mike JorDan"}
{"index":{"_index":"hotel_order","_id":"002"}}
{"username":"Tom JorDan"}
{"index":{"_index":"hotel_order","_id":"003"}}
{"username":"Kobi JorDan"}

如果你再插入的时候不指定_id,那么同前面的新增文档,_id由ES自动生成。
在实际使用过程中需要批量写入的文档比较多,有时甚至上千条或者上万条,这时如果使用Kibana的请求页面就很不方便了,一般使用Linux系统中的curl命令或者postman(Body选择binary)进行数据的批量写入。它们均支持上传文件,用户可以将批量写入的JSON数据保存到文件中,然后使用curl命令进行提交,这里我们以postman为例。
首先通过ES客户端需要进行授权,那么同之前学习Spring Security类似,我们可以通过postman中的Authorization中的Basic Auth进行授权登陆:
在这里插入图片描述
然后点击Body中的binary上传需要批量写入的数据的JSON文件,例如本例的bulk_doc.json:
在这里插入图片描述
文件内容如下:

{"index":{"_index":"hotel_order","_id":"001"}}
{"username":"Mike JorDan"}
{"index":{"_index":"hotel_order","_id":"002"}}
{"username":"Tom JorDan"}
{"index":{"_index":"hotel_order","_id":"003"}}
{"username":"Kobi JorDan"}

请求后,发现批量上传成功:
在这里插入图片描述

2.3、highLevelClient批量写入文档

在Java高级REST客户端中,批量写入文档需要创建BulkRequest对象并设置对应的索引名称。对于多条预写入的文档,可构建多个IndexRequest对象并调用BulkRequest方法添加这些IndexRequest对象,执行时调用客户端的bulk()方法并把BulkRequest传入即可。bulk()方法返回BulkResponse对象,通过该对象可以获取当前请求的状态。
那么我们为了能够解耦实体类,所以需要创建一个HotelDocRequest类用来封装需要上传的属性,代码如下:

package com.mbw.pojo;

import java.util.List;
import java.util.Map;

import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;

@Data
@AllArgsConstructor
@NoArgsConstructor
public class HotelDocRequest {
	private Hotel hotel;
	private String indexName;
	private Long indexId;
	private String docIdKey;
	private List<Hotel> hotelList;
	private List<Map<String,Object>> recordMapList;
}

然后是service层代码:

public String bulkIndexDoc(HotelDocRequest hotelDocRequest) {
		String indexName = hotelDocRequest.getIndexName();
		if (CharSequenceUtil.isBlank(indexName)) {
			throw new SearchException("索引名不能为空");
		}
		BulkRequest bulkRequest = new BulkRequest(indexName);
		List<Map<String, Object>> recordMapList = hotelDocRequest.getRecordMapList();
		for (Map<String, Object> dataMap : recordMapList) {
			//这个docIdKey代表map中值为docId对应的键值
			String docIdKey = hotelDocRequest.getDocIdKey();
			String docId = dataMap.get(docIdKey).toString();
			//这里必须每次都使用new IndexRequest(index,type),不然只会插入最后一条记录(这样插入不会覆盖已经存在的Id,也就是不能更新)
			IndexRequest indexRequest = new IndexRequest().id(docId).source(dataMap);
			//添加IndexRequest
			bulkRequest.add(indexRequest);
		}
		bulkRequest.timeout(TimeValue.timeValueSeconds(6));   //设置超时时间
		BulkResponse bulkResponse;
		try {
			bulkResponse = client.bulk(bulkRequest, RequestOptions.DEFAULT);
			if (bulkResponse.hasFailures()) {
				return "失败,原因:" + bulkResponse.buildFailureMessage();
			} else {
				return "成功";
			}
		} catch (IOException e) {
			throw new SearchException("搜索错误");
		}
	}

然后controller,在controller层我们将前端传入的hotelList转化为recordMap,这样避免了前端传入map的复杂传入,只需要写入需要上传的数据即可,类似前面的单条插入的操作:

	@PostMapping("/bulk/create/doc")
	public FoundationResponse<String> bulkIndexDoc(@RequestBody HotelDocRequest hotelDocRequest){
		List<Hotel> hotelList = hotelDocRequest.getHotelList();
		if(CollUtil.isEmpty(hotelList)){
			return FoundationResponse.error(100,"无可插入的有效文档");
		}
		//这里之所以转化是因为json输入List<Map<k,v>>这个结构非常复杂,所以由后端这边做一次转化,这样前台只需要输入List<Hotel>的json
		ArrayList<Map<String, Object>> recordListMap = new ArrayList<>();
		hotelList.forEach(hotel -> {
			HashMap<String, Object> dataMap = new HashMap<>();
			//这里对比之前的插入单条文档,需要多加入一个id
			dataMap.put("id", hotel.getId());
			dataMap.put("title", hotel.getTitle());
			dataMap.put("city", hotel.getCity());
			dataMap.put("price", hotel.getPrice());
			recordListMap.add(dataMap);
		});
		hotelDocRequest.setRecordMapList(recordListMap);
		String s = esCreateDocService.bulkIndexDoc(hotelDocRequest);
		return FoundationResponse.success(s);
	}

然后重启通过postman调用该接口,body中只需要输入hotelList即可:

{
    "hotelList": [
        {
            "id": "017",
            "title": "可莉酒店1",
            "city": "上海",
            "price": 648
        },
        {
            "id": "018",
            "title": "可莉酒店2",
            "city": "上海",
            "price": 648
        }
    ],
    "docIdKey":"id",
    "indexName":"hotel"
}

发现批量写入成功。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/181983.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

星环科技TDH多模型统一架构VS CDH架构

CDH是Cloudera的开源平台发行版&#xff0c;通过将Hadoop与其他十几个开源项目集成&#xff0c;为企业大数据业务提供服务。 在CDH开源大数据方案中&#xff0c;是通过多个互相独立的组件提供相应的能力&#xff0c;每个场景需要一个组件独立交付&#xff0c;为了实现不同业务…

【SpringCloud】OpenFeign远程调用的基本使用

一、OpenFeign替代RestTemplateRestTemplate 存在的问题我们以前利用RestTemplate发起远程调用的代码public Order queryOrderById(Long orderId) {// 1.查询订单Order order orderMapper.findById(orderId);// 2.利用restTemplate发起http请求// 为了负载均衡使用服务名称Str…

跨境电商行业如何做好社交媒体营销?

随着互联网的快速发展,跨境电商行业也得到了快速的发展,跨境电商更是成为了当下最热门的话题之一,很多商家都想通过跨境电商平台来销售产品,但随着竞争越来越激烈,想要在众多卖家中脱颖而出,就需要从营销方面入手了&#xff0c;这就意味着卖家们需要掌握一定的营销技巧。而在现…

jsp+SSM368的药品销售配送网站系统maven

管理员登录&#xff0c;管理员通过输入用户名、密码、角色等信息进行系统登录 管理员登录进入药品销售系统可以查看&#xff1b;个人中心、用户管理、医生管理、药品信息管理、药品分类管理、订单配送管理、系统管理、订单管理等内容 个人信息&#xff0c;个人信息页面可以填写…

Swig/CPP2Java

简介 实际工程可能存在如下部分&#xff1a;业务接口需要编程高效的语言&#xff08;如Python、Java等&#xff09;&#xff0c;易于部署维护&#xff1b;而核心算法部分&#xff0c;某些场景需要高效计算&#xff0c;会使用性能高效的语言&#xff08;如C/C等&#xff09;。 …

超详细Netty入门,看这篇就够了!

简介&#xff1a; 本文主要讲述Netty框架的一些特性以及重要组件&#xff0c;希望看完之后能对Netty框架有一个比较直观的感受&#xff0c;希望能帮助读者快速入门Netty&#xff0c;减少一些弯路。 前言 本文主要讲述Netty框架的一些特性以及重要组件&#xff0c;希望看完之后…

一起自学SLAM算法:10.2 VINS算法

连载文章&#xff0c;长期更新&#xff0c;欢迎关注&#xff1a; 不管是激光SLAM还是视觉SLAM&#xff0c;由于传感器采样率、传感器测量精度、主机计算力等因素的限制&#xff0c;在高速运动状态下定位追踪极易丢失。虽然轮式里程计能为激光SLAM系统提供短期运动预测以避免高速…

记录一次ubuntu进入不了界面的恢复记录

能说服一个人的从来不是道理&#xff0c;而是南墙&#xff1b;能点醒一个人的从来不是说教&#xff0c;而是磨难 一、问题描述 1、 卸载Python之后&#xff0c;ubuntu启动进入黑屏tty界面无法联网&#xff0c;无法进入桌面 2、 进入到界面之后没有网络&#xff0c;网络中或者右…

【分析向】没有三级缓存会导致什么?

通过上篇&#xff08;【实践向】当移除了三级缓存…… &#xff09;的实践&#xff0c;我们得出的结论是&#xff1a;如果不存在代理对象&#xff0c;二级缓存就可以解决循环依赖性的问题&#xff0c;但是当存在代理对象的时候&#xff0c;二级缓存则无法完全解决循环依赖&…

机器自动翻译古文拼音 - 十大宋词 - ALL

机器自动翻译古文拼音 - 十大宋词 - 雨霖铃寒蝉凄切 柳永https://mp.csdn.net/mp_blog/creation/editor/128779245机器自动翻译古文拼音 - 十大宋词 - 江城子乙卯正月二十日夜记梦 苏轼https://mp.csdn.net/mp_blog/creation/editor/128779156机器自动翻译古文拼音 - 十大宋词 …

0基础小白十分钟入门人工智能强化学习(附有实战源码)

强化学习概述 1.1 强化学习的学习任务目标 强化学习&#xff08;Reinforcement Learning, RL&#xff09;&#xff0c;用官话讲&#xff0c;是机器学习的范式和方法论之一&#xff0c;用于描述和解决智能体&#xff08;agent&#xff09;在与环境的交互过程中通过学习策略以达成…

Mybatis-Plus 乐观锁与代码生成器

目录 乐观锁 问题引入 乐观锁实现思路 实现步骤 代码生成器 代码生成器分析 代码生成器实现 乐观锁 问题引入 业务并发现象带来的问题:秒杀 假如有100个商品或者票在出售&#xff0c;为了能保证每个商品或者票只能被一个人购买&#xff0c;如何保证不会出现超买或者重复…

记一次nginx崩溃事件

一、事件描述 2023年春节复工第一天&#xff0c;项目组同事反馈说业务系统中图像处理代理Nginx服务于1月23日发生崩溃&#xff0c;完成了重启操作&#xff0c;检查nginx的日志有如下报错&#xff1a; 2023/01/23 11:07:07 [crit] 3237#3237: *2253009 pwritev() "/var/c…

网络编程-----(Socket编程TCP)

在咱们的TCP API中&#xff0c;也是主要是涉及到两个类: 1)ServerSocket:主要是给TCP服务器来进行使用的&#xff1b; 2)Socket:我们既需要给客户端来进行使用&#xff0c;也需要给服务器来进行使用&#xff1b; 这样就是说我们是不需要使用专门的类来进行表示传输的包&#x…

Java学习之抽象模板模式

目录 一、基本介绍 二、模板设计模式能解决的问题 三、最佳实践 一、AA类 二、BB类 三、main方法实现 四、提取相同语句 五、建立继承关系 父类-Template 子类-AA类 子类-BB类 六、运行中的动态绑定机制 一、基本介绍 抽象类体现的就是一种模板模式的设计&#xff…

【Git】概述

目录 1.1 是什么 介绍 历史时间轴 版本控制工具 1.2 能干嘛 作用 Git工作机制 代码托管中心 集中式版本控制系统 分布式版本控制系统 1.3 去哪下 命令行工具&#xff1a;Git for windows 操作系统中可视化工具&#xff1a;TortoiseGit(了解) GitHub网站 1.1 是什…

带你走进Java8新特性Stream流的小世界

目录 一. 什么是流&#xff08;Stream&#xff09; 1.1 流的定义 1.2 流的特点 1.3 操作流 1.4 创建流 二. 流的中间操作 2.1 流的筛选与切片 2.1.1 filter 2.1.2 limit 2.1.3 skip 2.1.4 distinct 2.2 流的映射 2.2.1 map 2.2.2 flatMap 2.3 流的排序 2.3.1 s…

智公网:2023年教师编必背30考点

1、制度化教育阶段开始于&#xff1a;近代。 2、各国的学校教育系统基本形成于&#xff1a;19世纪末。 3、现在世界上大多数国家的义务教育年限在&#xff1a;9年或9年以上。 4、“不愤不启&#xff0c;不悱不发”启发教学法的最早倡导者是&#xff1a;孔子。 5、“建国君民…

【Spring】Spring 6 新特性一一HTTP Interface

简介 Spring 6 的第一个 GA 版本发布了&#xff0c;其中带来了一个新的特性——HTTP Interface。 这个新特性&#xff0c;可以让开发者将 HTTP 服务&#xff0c;定义成一个包含特定注解标记的方法的 Java 接口&#xff0c;然后通过对接口方法的调用&#xff0c;完成 HTTP 请求…

硬盘损坏数据恢复怎么操作?恢复数据的常用方法

硬盘一般固定在电脑里面的存储装置&#xff0c;里面保存着我们大量的数据。随着电脑的使用越加广泛&#xff0c;有时不免出现一些问题&#xff0c;比如硬盘在使用过程中出现数据错误&#xff0c;或者是硬盘的内部零件出现故障。出现这些问题&#xff0c;硬盘损坏数据恢复怎么操…