Easysearch 压缩功能的显著提升:从 8.7GB 到 1.4GB

news2024/12/24 20:54:50
引言

在海量数据的存储和处理中,索引膨胀率是一个不可忽视的关键指标。它直接影响了存储成本和查询性能。近期,Easysearch 在这方面取得了显著的进展,其压缩功能的效果远超过了之前的版本。本文将详细介绍这一进展。

Easysearch 各版本压缩性能对比

根据之前文章的数据,Easysearch v1.1 在处理相同数据时,其索引大小比 Elasticsearch v6.4.3 降低了 50%。但这还不是全部,最新的测试数据更是令人惊艳。

显著的压缩效果:实验数据解析

通过对比不同版本的存储大小,我们更直观地了解到Easysearch在压缩方面的优势:

  • Easysearch的原始版本,未开启压缩:存储大小为8.7 GB。
  • Easysearch v2版本:经过第二版压缩后,存储大小显著减少到2.7 GB。
  • Easysearch v3版本:第三版压缩后,存储大小进一步减少到1.4 GB。

关键观察

Easysearch 之前提供的压缩版相比原始版本减少了约69%的存储空间。

Easysearch v3版则更为显著,相比原始版本减少了约84%的存储空间。

第三版本压缩的秘密武器:数字类型字段的复用

第三版本压缩能达到如此高的效率,主要是因为在之前第二版对文档原文中 keyword 类型字段复用的基础上,增加了对数字类型字段的复用。这一策略进一步优化了存储结构,显著提高了压缩效率。

压缩策略:多元化选择

Easysearch 提供了多种压缩策略,包括 default、best_compression、ZSTD 和 index.source_reuse。其中,ZSTD 和 index.source_reuse 是新引入的压缩策略,能进一步降低索引膨胀率。

带来的好处

降低存储成本:显著降低的存储大小意味着在硬件和维护方面的成本将大幅度减少。

提高系统扩展性:更小的数据尺寸意味着在相同的硬件配置下,系统能够处理更多的数据。

数据备份和传输:由于索引文件更小,数据备份和传输的速度也将提升,同时减少带宽需求。

总结

Easysearch 在压缩效果上有显著提升,不仅降低了存储成本,还提高了查询性能和系统扩展性。这使得Easysearch在大数据环境下成为一种非常具有吸引力的搜索和存储解决方案

关于 Easysearch

INFINI Easysearch 是一个分布式的近实时搜索与分析引擎,核心引擎基于开源的 Apache Lucene。Easysearch 的目标是提供一个轻量级的 Elasticsearch 可替代版本,并继续完善和支持更多的企业级功能。 与 Elasticsearch 相比,Easysearch 更关注在搜索业务场景的优化和继续保持其产品的简洁与易用性。

官网文档:INFINI Easysearch | INFINI Labs

下载地址:下载 | INFINI Labs

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1041550.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大屏大概是怎么个开发法(前端)

写在前面,博主是个在北京打拼的码农,从事前端工作5年了,做过十多个大大小小不同类型的项目,最近心血来潮在这儿写点东西,欢迎大家多多指教。 对于文章中出现的任何错误请大家批评指出,一定及时修改。有任何…

Vue 使用vue完成登录+注册前后端交互的实现

前言: 我们上一篇已经讲解了如何使用vue去构建一个SPA项目。今天我们就在昨天的基础之上完成登录注册前后端交互的实现。 我们使用Vue构建登录注册前后端交互的实现有以下好处、意义和效率: 好处: 响应式渲染:Vue采用了虚拟DOM技术…

Coupang走什么物流?Coupang火箭颜色什么意思?——站斧浏览器

coupang物流包括三个选项,分别是“自发货”“CGF”和“CGF LITE”,怎么选择才对自己最有利的呢?coupang火箭颜色什么意思?一起来了解下吧。 coupang走什么物流? ① 自发货 也就是卖家自己找第三方货代公司帮你发货&#xff0c…

C++ - map 和 set 的模拟实现 - 红黑树当中的仿函数 - 红黑树的迭代器实现

简单了解map 和 set 的实现 首先我们要知道,map 和 set 的底层就是 红黑树,但是 STL 当中 ,map 和 set 并不是我们想象的,直接使用一个 pair 对象来存储一个 key-value 或者 是 一个 key。具体如下所示: set&#xff…

大数据Flink(八十九):Temporal Join(快照 Join)

文章目录 Temporal Join(快照 Join) Temporal Join(快照 Join) Temporal Join 定义(支持 Batch\Streaming):Temporal Join 在离线的概念中其实是没有类似的 Join 概念的,但是离线中常常会维护一种表叫做 拉链快照表,使用一个明细表去 join 这个 拉链快照表 的 join …

介绍 Docker 的基本概念和优势V2.0

介绍 Docker 的基本概念和优势V2.0 一、Docker 的基本概念1.1 Docker 是什么?1.2 Docker 的组成部分1.3 Docker 的基本概念 二、Docker 的优势1. 轻量级:2. 可移植性:3. 自包含:4. 隔离性:5. 可扩展性:6. 易…

SpringBoot 学习(八)异步任务,邮件发送和定时执行

8. 异步任务 (1) 开启异步注解 // 启动类 EnableAsync SpringBootApplication public class TestApplication {public static void main(String[] args) {SpringApplication.run(TestApplication.class, args);}}(2) 声明异步方法 // service Service public class AsyncSer…

更新node版本运行程序报错

更新了电脑上的node以及npm的版本,出现了一些问题: 1.npm 报错 Class extends value undefined is not a constructor or null 在运行或者安装依赖的时候,出现这个问题的话,可以先下载一个低一级别的node版本,然后升…

安卓生成公钥和md5签名

安卓公钥和md5证书签名 大家好,最近需要备案app,用到了公钥和md5,MD5签名我倒是知道,然而对于公钥却一下子不知道了, 现在我讲一下我的流程。 首先是md5证书签名的查看, 生成了apk和签名.jks后&…

人工智能赋能财务体系架构

我看到这个价格给我的感觉上半部分是一个数据中台,下半部分全部就是机器学习的原理;

Learn Prompt- Midjourney案例:建筑设计

基础结构​ 这是一个非常适合在 V5 中的生产建筑的提示结构。 我们不妨先回顾一下上一章节的通用模板: 主题 背景,环境,氛围 风格 参数 在建筑生成的设定下,我们可以使用 主题详细描述 周边环境 建筑风格或时期、建筑师、设计师和摄影师 参数…

【深度学习实验】卷积神经网络(一):卷积运算及其Pytorch实现(一维卷积:窄卷积、宽卷积、等宽卷积;二维卷积)

目录 一、实验介绍 二、实验环境 1. 配置虚拟环境 2. 库版本介绍 三、实验内容 1. 一维卷积 a. 概念 b. 示例 c. 分类 窄卷积(Narrow Convolution) 宽卷积(Wide Convolution) 等宽卷积(Same Convolution&am…

通信协议:Uart的Verilog实现(上)

1、前言 调制解调器是主机/设备与串行数据通路之间的接口,以串行单比特格式发送和接收数据。它也被称为通用异步收发器(Uart, Universal Asynchronous Receiver/Transmitter),这表明该设备能够接收和发送数据,并且发送和接收单元不同步。 本节…

Python项目实战:基于2D或3D的区域增长算法

文章目录 一、简介二、项目实战2.1、2D图像(10x10)2.2、2D图像(100x100)2.3、3D图像(10x10x10) 一、简介 区域增长算法是一种用于图像分割方法,将相邻像素按照一定的相似性合并成一个区域。 步…

Spring 学习(九)整合 Mybatis

1. 整合 Mybatis 步骤 导入相关 jar 包 <dependencies><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.12</version><scope>test</scope></dependency><dependency>…

规模化、可复制的大模型应用——企业知识管家

9月18日&#xff0c; “2023可信AI大会暨南京人工智能产业发展大会大模型高质量发展分论坛”在南京成功举办&#xff0c;九章云极DataCanvas公司受邀出席论坛&#xff0c;和与会嘉宾共同探讨大模型时代企业知识管理面临的挑战和机遇&#xff0c;同时作为大模型创新与应用代表企…

每日一题2023.9.25|LeetCode1367.二叉树中的链表

1367.二叉树中的链表 链接&#xff1a;LeetCode1367.二叉树中的链表 错误分析 其实这道题目思路很简单&#xff1a; 采用前序遍历的方式从根节点开始遍历二叉树&#xff0c;并在遍历的过程中比较与链表节点的值是否相等&#xff0c;如果当前链表节点的值和树节点的值相等&am…

怎样提高外贸业务销售能力

怎样提高外贸业务销售能力 一、市场分析与研究1. 了解目标市场&#xff1a;2. 收集客户信息&#xff1a; 二、产品知识和差异化竞争1. 熟悉产品&#xff1a;2. 差异化竞争&#xff1a; 三、制定销售策略和计划1. 制定销售计划&#xff1a;2. 销售策略&#xff1a; 四、谈判技巧…

Python开发与应用实验2 | Python基础语法应用

*本文是博主对学校专业课Python各种实验的再整理与详解&#xff0c;除了代码部分和解析部分&#xff0c;一些题目还增加了拓展部分&#xff08;⭐&#xff09;。拓展部分不是实验报告中原有的内容&#xff0c;而是博主本人自己的补充&#xff0c;以方便大家额外学习、参考。 &a…

Wespeaker框架训练(1)

1. 数据集准备(Data preparation) 进入wespeaker目录文件/home/username/wespeaker/examples/voxceleb/v2 对run.sh文件进行编辑 vim run.sh 可以看到run.sh里面的配置内容 #数据集下载&#xff0c;解压 stage1 #插入噪音&#xff0c;制作音频文件 stop_stage2 #数据集放置…