【Java项目】1000w数据量的表如何做到快速的关键字检索?

news2025/1/12 5:55:04

文章目录

  • 需求
  • 解决思路
    • 基本设计
    • 查询流程
    • 插入流程
    • 修改流程
    • 删除流程
  • 优化思路
  • 代码实现

需求

ok,这个需求是我提的,然后我问了我的一位杭州的朋友,然后我们最后一起敲定这个方法。

我的项目有一个根据关键字进行商品名称的搜索功能,用户输入部分关键字之后,那么就需要查询出这个关键字对应的所有商品。假设我现在有1000w行记录,并且不能使用ES做倒排索引解决这个问题。
那么你会如何解决这个问题?
我们先分析,如果我们使用数据库提供的 % 这种模糊匹配机制,首先我们的索引会失效,并且这基本意味着会走全表扫描,对于1000w行的记录如果我们走全表扫描,那么效率可想而知。
并且如果使用分库分表技术,那么维护的难度也大了,不论是业务代码还是数据库都得跟着修改,非常麻烦,那么如何解决这个问题?

解决思路

基本设计

大概流程如下:
我们可以自己实现一个倒排索引的算法,用户创建商品之后,将商品名称进行细粒度的分词,比如输入 “Java技术指导”,那么分词为“Java”,“技术”,“指导”。粒度越细越好。
可以看到此时我们得到的是一个数组,对吧。
然后我们创建两张表,一张表是商品表,存储商品的完整信息。
另一张表是倒排索引表,里面是什么内容?
包括id,word,goods_ids
这里的word就是我们的分词数据,goods_ids也就是我们这个关键字下面对应的所有商品id。
上面我们对一个字符串进行分词后得到的,其实是一个数组对吧,那么我们此时就可以向数据库中插入这三行的数据了,大概格式如下。
在这里插入图片描述
然后我们得到goods_ids是一个集合,我们在使用这个集合去商品表中查询出所有在这个集合中的记录即可。

查询流程

那么我现在大概简述一下一个数据的查询流程:
我们查询一个商品,通过关键字的方式,经过倒排索引的算法得到word值,去数据库中查询是否有这个word值,如果有,那么直接查询出来这个关键字对应的goods_ids这一段字符串,我们对字符串进行处理得到字符串包含的所有id,然后用这些id去商品表查询数据即可。

ok,那么如果有插入和修改,删除等操作怎么办呢?

插入流程

先说插入流程,一样的,当我们要插入一个数据的时候,我们先得到这个商品对应的word,也就是我们取出商品的name商品名称字段,然后对这个name字段进行分词算法,得到细粒度的分词。之后,我们我们将这个记录插入到商品表中,得到插入的id之后,返回id成功后,我们在将分词得到的数组,配合上我们得到的商品id,循环的去插入到这个分词表中,如果分词表中出现了重复的word,那么我们做的是取出goods_ids这个字段,然后再字段尾巴上补上这个id,而如果不存在这个字段,则新建一行记录,word为当前分词,goods_ids直接为刚才返回的id。

修改流程

修改流程其实已经和上面的流程差不多了,依旧是经过分词,然后去精确判断分词对应的行,然后修改对应的ids字段即可。
当然,其实没有必要这样子,因为会让代码更加复杂,我们只需要拿到所有的id之后,去商品表中判断的时候判断删除标志位即可,也就是使用逻辑删除即可。

删除流程

删除流程也差不多,只不过我们如何删除对应的goods_ids中的哪一个id呢?
我们首先取出goods_ids这个字段值,然后通过 “ ,”分隔符得到每一个id,然后我们删除指定的id即可,当然,为了加快速度,我们的商品表中的id是自增的,所以这样子就能尽可能快的删除指定数据了。

优化思路

其实,顺着上面的思路,我忽然想到。其实我们的数据库其实作用就是为了保存一个分词,然后分词后面对应的是一堆的id,这些id是字符串,也就是我们取出来之后还得先经过处理才能得到真正可用的id。
我想的是,上面的结构其实很简单,就是一个 word—goods_ids的结构,这种结构用Redis肯定可以呀对吧。
但是如果你直接K-V结构或者hash,那么结构其实相当于就是把磁盘空间变成了内存空间,我觉得也没有多好。当然,处理起来可能比刚才那个转字符串完毕之后,然后再查询来的快。
然后我就我想到了我常用的Bitmap结构,0101啊,对吧,我只需要把如果说存在这个id,那么我把对应的位置置1即可,这样子增删改的速度全都加快了不是嘛。

当然,有一个缺点就是,查询Redis是有网络开销的。
但是我觉得如果使用Redis的bitmap,那么由于增删改查的速度都更快了,并且也不需要字符串的处理了,可能效果更优。
当然,也可以直接使用Java提供的BitSet。
但是我实现了一下发现,BitSet的缺点在于,我不能很快的得到到底那些索引位为1,我需要不断的通过位运算的方式才能得到为1的位。
Redis的问题在于,如果我使用RedisTemplate然后去获取bitmap结构整个结构,会报错,就导致我依旧可能需要去循环遍历每个可能位1的位。

代码实现

代码单纯只是为了验证这种方式的可行性,对于数据库字段的设计,以及其他性能方面的考虑,代码方面的优化都还没有做。大致代码如下:

POJO类

@Data
@TableName("goods")
@AllArgsConstructor
@NoArgsConstructor
public class Goods implements Serializable {

    private static final long serialVersionUID = 1L;

    /**
     * 主键
     */
    @TableId(value = "id", type = IdType.AUTO)
    private Long id;

    private String goodName;

    @TableLogic(value = "false", delval = "true")
    private boolean deleted;


}


@Data
@TableName("word_goods")
public class WordGoods implements Serializable {

    private static final long serialVersionUID = 1L;

    /**
     * 主键
     */
    @TableId(value = "id", type = IdType.AUTO)
    private Long id;

    private String goodsId;
    private String word;


}


Service代码

package ebuy.campus.deal.service.impl;

import com.baomidou.mybatisplus.core.conditions.query.LambdaQueryWrapper;
import ebuy.campus.deal.mapper.GoodsMapper;
import ebuy.campus.deal.mapper.WordGoodsMapper;
import ebuy.campus.deal.model.pojo.Goods;
import ebuy.campus.deal.model.pojo.WordGoods;
import ebuy.campus.deal.service.GoodsService;
import ebuy.campus.framework.core.constant.DealConstant;
import ebuy.campus.framework.core.util.HanLPUtil;
import ebuy.campus.framework.redis.service.RedisService;
import org.jetbrains.annotations.NotNull;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Service;
import org.springframework.transaction.annotation.Transactional;

import java.io.IOException;
import java.util.*;

/**
 * @author: 张锦标
 * @date: 2023/6/13 15:26
 * GoodsServiceImpl类
 */
@Service
public class GoodsServiceImpl implements GoodsService {

    @Autowired
    private GoodsMapper goodsMapper;

    @Autowired
    private WordGoodsMapper wordGoodsMapper;

    @Autowired
    private RedisService redisService;

    @Transactional
    public boolean add(Goods goods) {
        try {
            //分词操作
            List<String> texts = HanLPUtil.parse(goods.getGoodName());
            //取出数据库中包含该分词的所有行
            LambdaQueryWrapper<WordGoods> lqw = new LambdaQueryWrapper<>();
            lqw.in(WordGoods::getWord, texts.toArray());
            List<WordGoods> wordGoods = wordGoodsMapper.selectList(lqw);
            //得到数据库中已有的所有分词
            List<String> words = wordGoods.stream().map(x -> x.getWord()).toList();
            //得到数据库中没有的分词
            List<String> newWords = texts.stream().dropWhile(x -> words.contains(x)).toList();
            //插入当前新数据
            int success = goodsMapper.insert(goods);
            if (success <= 0) {
                return false;
            }
            Long id = goods.getId();
            ;
            //修改数据库已有分词的数据
            wordGoods.stream().forEach(x -> {
                x.setGoodsId(x.getGoodsId() + "," + id);
                wordGoodsMapper.updateById(x);
                String goodsId = x.getGoodsId();
                //保存到redis
                for (String s : goodsId.split(",")) {
                    redisService.setBit(DealConstant.DEAL_SEARCH_KEY + x.getWord(), Long.valueOf(s), true);
                }
            });
            //插入没有的分词
            newWords.stream().forEach(word -> {
                WordGoods x = new WordGoods();
                x.setGoodsId(String.valueOf(id));
                x.setWord(word);
                wordGoodsMapper.insert(x);
                //保存到redis
                redisService.setBit(DealConstant.DEAL_SEARCH_KEY + x.getWord(), id, true);
            });
        } catch (IOException e) {
            throw new RuntimeException(e);
        }
        return true;
    }


    @Override
    public List<Goods> listByWord(String word) {
        //分词操作
        List<String> texts = null;
        Set<Long> ids = new HashSet<>();
        try {
            texts = HanLPUtil.parse(word);

            for (String x : texts) {
                List<Long> bitsIndexes = redisService
                        .getBitIndexesByKey(DealConstant.DEAL_SEARCH_KEY + x);
                ids.addAll(bitsIndexes);
            }
            //redis里面没有存储id
            if (ids.isEmpty()) {
                //取出数据库中包含该分词的所有行
                LambdaQueryWrapper<WordGoods> lqw = new LambdaQueryWrapper<>();
                lqw.in(WordGoods::getWord, texts.toArray());
                List<WordGoods> wordGoods = wordGoodsMapper.selectList(lqw);
                ids = getIds(wordGoods);
                LambdaQueryWrapper<Goods> lqw1 = new LambdaQueryWrapper<>();
                lqw1.in(!ids.isEmpty(), Goods::getId, ids);
                List<Goods> goodsList = goodsMapper.selectList(lqw1);
                return goodsList;
            } else {
                //redis里面有id了,直接查询
                LambdaQueryWrapper<Goods> lqw1 = new LambdaQueryWrapper<>();
                lqw1.in(!ids.isEmpty(), Goods::getId, ids);
                List<Goods> goodsList = goodsMapper.selectList(lqw1);
                return goodsList;
            }
        } catch (IOException e) {
            throw new RuntimeException(e);
        }
    }

    @NotNull
    private Set<Long> getIds(List<WordGoods> wordGoods) {
        Set<Long> ids = new HashSet<>();
        for (WordGoods wordGood : wordGoods) {
            String goodsId = wordGood.getGoodsId();
            String[] split = goodsId.split(",");
            for (int i = 0; i < split.length; i++) {
                ids.add(Long.valueOf(split[i]));
            }
        }
        return ids;
    }

}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/651359.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

设计模式(十九):行为型之中介者模式

设计模式系列文章 设计模式(一)&#xff1a;创建型之单例模式 设计模式(二、三)&#xff1a;创建型之工厂方法和抽象工厂模式 设计模式(四)&#xff1a;创建型之原型模式 设计模式(五)&#xff1a;创建型之建造者模式 设计模式(六)&#xff1a;结构型之代理模式 设计模式…

C语言学习笔记:结构化程序设计思想

✨博文作者&#xff1a;烟雨孤舟 &#x1f496; 喜欢的可以 点赞 收藏 关注哦~~ ✍️ 作者简介: 一个热爱大数据的学习者 ✍️ 笔记简介&#xff1a;作为大数据爱好者&#xff0c;以下是个人总结的学习笔记&#xff0c;如有错误&#xff0c;请多多指教&#xff01; 目录 自顶向…

基于51单片机设计的呼吸灯

一、项目介绍 呼吸灯是一种常见的LED灯光效果,它可以模拟人类呼吸的变化,使灯光看起来更加柔和和自然。51单片机是一种广泛使用的微控制器,具有体积小、功耗低、成本低等优点,非常适合用于控制LED呼吸灯。本项目的呼吸灯将使用PWM(脉冲宽度调制)技术控制LED亮度,从而实…

HX8358A功放IC规格书

HX8358A AB /D 类切换,最高7V供电10W 输出功率,单通道音频功率放大器 概要 HX8358A是一款FM无干扰、带防破音AB/D类可切换、高效率、无滤波器的10W单声道音频功率放大器。超低的EMI非常适合应用于带FM功能的便携式设备中。 HX8358A的单端输入架构和极高的PSRR有效地提高了HX835…

程序员一眼就会爱上的 7 个网站

作为程序员&#xff0c;您可以经常发现并学习最新的工具&#xff0c;这些工具可以帮助您提高知识、跟上新兴技术并与其他程序员建立联系。今天给大家分享7个非常有意思的网站。 HackerRank 地址&#xff1a;https://www.hackerrank.com/ HackerRank提供各种编码挑战和竞赛&am…

C国演义 [第三章]

第三章 组合分析步骤递归函数的返回值和参数递归结束的条件单层逻辑 组合总和 III 组合 力扣链接 给定两个整数 n 和 k&#xff0c;返回范围 [1, n] 中所有可能的 k 个数的组合。 你可以按 任何顺序 返回答案。 示例 1&#xff1a; 输入&#xff1a;n 4, k 2 输出&#xff1…

【STM32训练—WiFi模块】第二篇、STM32驱动ESP8266WiFi模块获取天气

目录 第一部分、前言 1、获取心知天气API接口 2、硬件准备 第二部分、电脑串口助手调试WIFI模块获取天气 1、ESP8266获取天气的流程 2、具体步骤 第三部分、STM32驱动ESP8266模块获取天气数据 1、天气数据的解析 1.1、什么函数来解析天气数据&#xff1f; 2.1、解析后…

【MySQL数据库】MySQL索引

MySQL索引、事务与存储引擎 一、索引1.1索引的概念1.2索引的作用1.3索引的工作原理1.4索引的副作用1.5索引的应用场景 二、索引的创建与分类2.1普通索引&#xff0c;最基本的索引类型&#xff0c;没有唯一性之类的限制。2.2唯一索引2.3 主键索引2.4组合索引2.5全文索引 三、删除…

JMeter源码解析之结果收集器

目录 前言&#xff1a; 一、JMeter结果收集器概述 二、单机模式 三、分布式模式 四、总结 前言&#xff1a; JMeter是一款著名的开源性能测试工具&#xff0c;JMeter提供了多种结果收集器&#xff0c;以帮助用户对性能测试结果数据进行收集、整理和分析。 一、JMeter结果…

Mysql数据库初体验及管理

Mysql数据库初体验及管理 一、数据库相关概念1.数据库的组成2.数据库管理系统3.数据库系统 二、数据库的发展1.第一代数据库2.第二代数据库3.第三代数据库 三、主流的数据库介绍四、关系型数据库1、介绍2、实体3、关系4、属性非关系型数据库 五、Mysql数据库管理1、库和表2、常…

Excel 2021入门指南:详细解读常用功能

软件安装&#xff1a;办公神器office2021安装教程&#xff0c;让你快速上手_正经人_____的博客-CSDN博客 一、 新建工作表 打开Excel 2021后&#xff0c;可以看到左上角的“文件”选项&#xff0c;在弹出的菜单中选择“新建”选项&#xff0c;然后可以选择使用空白工作表或者…

工具-自动获取/校对XpathHelper/XpathHelperPlus/XPathHelperWizard插件轻松配置xpath规则

目录 一、xpath插件功能对比1.1、应用的范围1.2、不依赖插件&#xff0c;依赖谷歌开发者工具1.3、XpathHelper/XpathHelperPlus/XPathHelperWizard插件功能特点 二、安装XpathHelper插件以及用法2.1、安装XpathHelperPlus插件2.2、XpathHelperPlus插件使用方法 三、安装XPathHe…

自然语言处理: 第二章Word2Vec

一. 理论基础 维度很高(与语料库有关)&#xff0c;计算复杂稀疏性&#xff0c;浪费计算效率&#xff0c;只有一个元素是1 其他都是0缺乏语义信息&#xff0c;无法衡量语义相似度无法处理未知单词 而在One-Hot的基础上&#xff0c;Word2Vec 是一种分布式表达字/词的方式&#x…

Java|注解之定义注解

Java语言使用interface语法来定义注解&#xff08;Annotation&#xff09;&#xff0c;它的格式如下&#xff1a; public interface Report {int type() default 211;String level() default "211";String value() default "211"; } 注解的参数类似无参数…

华为OD机试真题 JavaScript 实现【比赛评分】【2023 B卷 100分】,附详细解题思路

一、题目描述 一个有N个选手参加比赛&#xff0c;选手编号为1~N&#xff08;3<N<100&#xff09;&#xff0c;有M&#xff08;3<M<10&#xff09;个评委对选手进行打分。打分规则为每个评委对选手打分&#xff0c;最高分10分&#xff0c;最低分1分。 请计算得分最…

Android 音视频开发核心知识点笔记整合

很多开发者都知道Android音视频开发这个概念&#xff0c;音视频开发不仅需要掌握图像、音频、视频的基础知识&#xff0c;并且还需要掌握如何对它们进行采集、渲染、处理、传输等一系列的开发和应用&#xff0c;因此&#xff0c;音视频开发是一门涉及到很多内容的领域。 随着5G…

开战在即!与全球伙伴一起打造你的数据应用,TiDB Future App Hackathon 2023 来啦!

2023 TiDB Future App Hackathon 来啦&#xff01;本届 Hackathon 的主题为&#xff1a;Code, Innovate & Build Amazing Data Applications —— 释放你的创造力、构建突破性的应用、在全球范围内寻找你的队友、体验最新最 in 的 Serverless 技术&#xff0c;更有 总计 $3…

马原第一章复习1.

一.物质的存在方式 《德法年鉴》 完成从唯物到唯心 从革命主义等到共产主义的过度 为创立马克思理论提供了根本前提《德意志形态》 首次阐述了历史唯物主义的基本观点《共产党宣言》标志着马克思主义的公开问世 也是第一个无产阶级政党的党纲《资本论》阐述剩余价值学说 解释生…

【推荐】Oracle Live SQL——在线 Oracle SQL 测试工具

最近回答了几个 CSDN “学习”功能里“问答”区的一些专业相关问题&#xff0c;回答过程中采用严谨的方式&#xff0c;在 Oracle Live SQL 上进行验证测试。这个很好用的 Oracle APEX 应用我使用好几年了&#xff0c;虽然近年来已转行 MySQL 和国产数据库领域&#xff0c;但仍然…

链表与顺序表的区别以及扩展计算机硬件的存储体系

好久没有更新文章了&#xff0c;在忙学校的事情时我还是比较怀念大家一直以来对我的关注和鼓励&#xff0c;接下来我会继续更新数据结构相关的文章&#xff0c;也请大家多多支持&#xff0c;十分感谢。正文来了&#xff1a; 首先说明一点&#xff0c;我在举例和比较时所使用的是…