搭建自己的搜索引擎之一

news2026/2/13 18:02:45

一、前言

关于搜索引擎自己接触的还算是比较多的，先简单回忆一下以前做过的事情，以前工作没有什么文档沉淀下来很多事情几乎都快忘差不多了，挺遗憾的。

1、10几年前在东奇软件做企业网站时玩过Lucene，当时中文分词还很弱，很多词搜不出来，印象中当时好像是给中国银行做企业网站，然后我的技术被银行的人鄙视，不过银行技术部门的人虽然会做银行的信息系统，但用的是C或Dephi，还不会JSP根本不会做网站，哈哈。

2、在阿里接触过三套搜索引擎，做淘宝教育对接VSearch，做分类信息对接淘宝主搜，另外还请淘宝终搜团队给我们小组做技术架构分享，VSearch和终搜都是基于Lucene和Solr搭建的，做了一些扩展，提供框架支持全量和增量数据的导入，Vsearch是为当时淘宝垂直市场战略服务的，因为对接主搜周期特别长而且很多个性化需求都不能满足，而终搜是另外一个团队开发的一个竟品，终搜字面意思就是统一掉所有搜索，当时两个组打得挺厉害，然后主搜是基于C语言开发的，最初的架构应该是来源于Yahoo，一淘和淘宝列表页(这个印象中叫Hasper系统什么来着)搜索都是主搜搭建的。

3、在牛邦做股票软件时，新股数据的查询由ElasticSearch提供，我当时负责写Python爬虫到几个网站去爬新股数据并导入ElasticSearch，领导负责搭建ElasticSearch及提供服务接口。

4、在现在公司做牛奶业务时，曾经让一个同事搭建ES,主要是解决配送单变更日志查询，但后来该业务一直没有起色搭好后最终没有进行切换。

5、窗帘系统正在搭建ES去解决一些实际中碰到的问题，比如每天的库存价值报告快照，实时库存报告导出，各种报表、现在完全依赖于数据库，突发负载还是比较高，另外一些实时数据查询导出需求使用数据库很难满足。

二、MySQL VS ElasticSearch

用ES一般做法是把MySQL里存储的数据同步一份到ES，然后用ES来做海量数据的实时查询，解决模糊搜索仅是一个小特性。

1、关系数据库存储结构化业务数据，更多是为了满足业务流程而进行设计，如果太过于考虑满足查询进行设计，整个结构会比较混乱会有很多冗余，而ES天生就是为了解决查询的，可以把多张表数据合并成一个Schema（或者叫类型)，这样就可以解决掉很多耗性能的多表关联查询。

2、MySQL用事务特性来保证不会产生脏数据，而ES对事务方面并无什么支持，所以一般还是要用MySQL来存储原始数据。

3、MySQL做海量数据查询需要做分库分表，但最终你的查询还是会落在某个库的某张表中，而ES是天生的分布式架构，数据进行分片存储，在查询时一个节点A收到请求会将其转发给它数据节点，其它数据节点在本机查询将结果ID返回节点A，然后由节点A对所有结果进行排序分页，然后再去各个数据节点根据ID查原始数据返回给用户。

4、即使是单片查询，ES Lucene的倒排索引也比MySQL的B+TREE快。