Sphinx的原理详解和使用

news2024/12/26 4:34:31

一、Sphinx介绍

8bc8680a1f984326adb0e3fe3a9b5a77.png

1.1 简介

Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎。意图为其他应用提供高速、低空间占用、高结果 相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL 数据库数据源的支持,也支持从标准输入读取特定格式 的XML数据。通过修改源代码,用户可以自行增加新的数据源(例如:其他类型的DBMS 的原生支持)。

1.2 Sphinx的主要特性

9957489a72e54e889e511010b6c6e8c2.webp

  • 高速的建立索引(在当代CPU上,峰值性能可达到10 MB/秒);
  • 高性能的搜索(在2 – 4GB 的文本数据上,平均每次检索响应时间小于0.1秒);
  • 可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可 处理100 M 文档);
  • 提供了优秀的相关度算法,基于短语相似度和统计(BM25)的复合Ranking方法;
  • 支持分布式搜索;
  • 支持短语搜索
  • 提供文档摘要生成
  • 可作为MySQL的存储引擎提供搜索服务;
  • 支持布尔、短语、词语相似度等多种检索模式;
  • 文档支持多个全文检索字段(最大不超过32个);
  • 文档支持多个额外的属性信息(例如:分组信息,时间戳等);
  • 支持断词;
  • 支持单字节编码与UTF-8编码。

1.3 Sphinx工作流程

fd3af46f7df04d82a87517f800aae3cc.png

流程图解释:

  • Database:数据源,是Sphinx做索引的数据来源。因为Sphinx是无关存储引擎、数据库的,所以数据源可以是MySQL、PostgreSQL、XML等数据。
  • Indexer:索引程序,从数据源中获取数据,并将数据生成全文索引。可以根据需求,定期运行Indexer达到定时更新索引的需求。
  • Searchd:Searchd直接与客户端程序进行对话,并使用Indexer程序构建好的索引来快速地处理搜索查询。
  • APP:客户端程序。接收来自用户输入的搜索字符串,发送查询给Searchd程序并显示返回结果。

Sphinx的整个工作流程就是Indexer程序到数据库里面提取数据,对数据进行分词,然后根据生成的分词生成单个或多个索引,并将它们传递给searchd程序。然后客户端可以通过API调用进行搜索。

1.4 Sphinx中文分词

中文的全文检索和英文等latin系列不一样,后者是根据空格等特殊字符来断词,而中文是根据语义来分词。目前大多数数据库尚未支持中文全文检索,如Mysql。故,国内出现了一些Mysql的中文全文检索的插件,做的比较好的有hightman的中文分词。Sphinx如果需要对中文进行全文检索,也得需要一些插件来补充,比如 coreseek 和 sfc 。

二、Sphinx安装和使用 

2.1 安装

1)在安装Sphinx之前需要安装的linux扩展

yum install make gcc g++ gcc-c++ libtool autoconf automake imake mysql-devel libxml2-devel expat-devel

2)下载coreseek,附带压缩包图展示

下载地址:coreseek-4.1-beta.tar.gz · pirnt_recho/coreseek - Gitee.com

7d973926672246e0affa07381f0f2b0d.png

3)安装csft

cd csft-4.1

./buildconf.sh

./configure --prefix=/usr/local/coreseek

sudo make && make install

4)安装mmseg(coreseek的中文库)

cd mmseg-3.2.14

./configure --prefix=/usr/local/mmseg3

sudo make && make install

5)sphinx.conf 配置文件详细说明

进入Coreseek安装目录,创建sphinx.conf文件(数据库MySQL数据导入配置文件)

cd /usr/local/coreseek/etc/

cp sphinx.conf.dist sphinx.conf

Sphinx.conf 配置文件说明

## 数据源src1
source src1
{
    ## 说明数据源的类型。数据源的类型可以是:mysql,pgsql,mssql,xmlpipe,odbc,python
    ## 有人会奇怪,python是一种语言怎么可以成为数据源呢?
    ## python作为一种语言,可以操作任意其他的数据来源来获取数据,更多数据请看:(http://www.coreseek.cn/products-install/python/)
    type            = mysql
     
    ## 下面是sql数据库特有的端口,用户名,密码,数据库名等。
    sql_host        = localhost
    sql_user        = test
    sql_pass        =
    sql_db          = test
    sql_port        = 3306
  
    ## 如果是使用unix sock连接可以使用这个。
    # sql_sock      = /tmp/mysql.sock
  
    ## indexer和mysql之间的交互,需要考虑到效率和安全性。
    ## 比如考虑到效率,他们两者之间的交互需要使用压缩协议;考虑到安全,他们两者之间的传输需要使用ssl
    ## 那么这个参数就代表这个意思,0/32/2048/32768  无/使用压缩协议/握手后切换到ssl/Mysql 4.1版本身份认证。
    # mysql_connect_flags   = 32
  
    ## 当mysql_connect_flags设置为2048(ssl)的时候,下面几个就代表ssl连接所需要使用的几个参数。
    # mysql_ssl_cert        = /etc/ssl/client-cert.pem
    # mysql_ssl_key     = /etc/ssl/client-key.pem
    # mysql_ssl_ca      = /etc/ssl/cacert.pem
  
    ## mssql特有,是否使用windows登陆
    # mssql_winauth     = 1
  
    ## mssql特有,是使用unicode还是单字节数据。
    # mssql_unicode     = 1 # request Unicode data from server
  
    ## odbc的dsn串
    # odbc_dsn      = DBQ=C:\data;DefaultDir=C:\data;Driver={Microsoft Text Driver (*.txt; *.csv)};
     
    ## sql某一列的缓冲大小,一般是针对字符串来说的。
    ## 为什么要有这么一种缓冲呢?
    ## 有的字符串,虽然长度很长,但是实际上并没有使用那么长的字符,所以在Sphinx并不会收录所有的字符,而是给每个属性一个缓存作为长度限制。
    ## 默认情况下非字符类型的属性是1KB,字符类型的属性是1MB。
    ## 而如果想要配置这个buffer的话,就可以在这里进行配置了。
    # sql_column_buffers    = content=12M, comments=1M
  
    ## indexer的sql执行前需要执行的操作。
    # sql_query_pre     = SET NAMES utf8
    # sql_query_pre     = SET SESSION query_cache_type=OFF
  
    ## indexer的sql执行语句
    sql_query       = \
        SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \
        FROM documents
  
    ## 有的时候有多个表,我们想要查询的字段在其他表中。这个时候就需要对sql_query进行join操作。
    ## 而这个join操作可能非常慢,导致建立索引的时候特别慢,那么这个时候,就可以考虑在sphinx端进行join操作了。
    ## sql_joined_field是增加一个字段,这个字段是从其他表查询中查询出来的。
    ## 这里封号后面的查询语句是有要求的,如果是query,则返回id和查询字段,如果是payload-query,则返回id,查询字段和权重。
    ## 并且这里的后一个查询需要按照id进行升序排列。
    # sql_joined_field  = tags from query; SELECT docid, CONCAT('tag',tagid) FROM tags ORDER BY docid ASC
    # sql_joined_field  = wtags from payload-query; SELECT docid, tag, tagweight FROM tags ORDER BY docid ASC
  
    ## 外部文件字段,意思就是一个表中,有一个字段存的是外部文件地址,但是实际的字段内容在文件中。比如这个字段叫做content_file_path。
    ## 当indexer建立索引的时候,查到这个字段,就读取这个文件地址,然后加载,并进行分词和索引建立等操作。
    # sql_file_field        = content_file_path
  
    ## 当数据源数据太大的时候,一个sql语句查询下来往往很有可能锁表等操作。
    ## 那么我么就可以使用多次查询,那么这个多次查询就需要有个范围和步长,sql_query_range和sql_range_step就是做这个使用的。
    ## 获取最大和最小的id,然后根据步长来获取数据。比如下面的例子,如果有4500条数据,这个表建立索引的时候就会进行5次sql查询。 
    ## 而5次sql查询每次的间隔时间是使用sql_ranged_rhrottle来进行设置的。单位是毫秒。
    # sql_query_range       = SELECT MIN(id),MAX(id) FROM documents
    # sql_range_step        = 1000
    # sql_ranged_throttle   = 0
  
    ## 下面都是些不同属性的数据了
    ## 先要了解属性的概念:属性是存在索引中的,它不进行全文索引,但是可以用于过滤和排序。
  
    ## uint无符号整型属性
    sql_attr_uint       = group_id
     
    ## bool属性
    # sql_attr_bool     = is_deleted
     
    ## 长整型属性
    # sql_attr_bigint       = my_bigint_id
     
    ## 时间戳属性,经常被用于做排序
    sql_attr_timestamp  = date_added
  
    ## 字符串排序属性。一般我们按照字符串排序的话,我们会将这个字符串存下来进入到索引中,然后在查询的时候比较索引中得字符大小进行排序。
    ## 但是这个时候索引就会很大,于是我们就想到了一个方法,我们在建立索引的时候,先将字符串值从数据库中取出,暂存,排序。
    ## 然后给排序后的数组分配一个序号,然后在建立索引的时候,就将这个序号存入到索引中去。这样在查询的时候也就能完成字符串排序的操作。
    ## 这,就是这个字段的意义。
    # sql_attr_str2ordinal  = author_name
  
    ## 浮点数属性,经常在查询地理经纬度的时候会用到。
    # sql_attr_float        = lat_radians
    # sql_attr_float        = long_radians
  
    ## 多值属性(MVA)
    ## 试想一下,有一个文章系统,每篇文章都有多个标签,这个文章就叫做多值属性。
    ## 我要对某个标签进行查询过滤,那么在建立查询的时候就应该把这个标签的值放入到索引中。
    ## 这个字段,sql_attr_multi就是用来做这个事情的。
    # sql_attr_multi        = uint tag from query; SELECT docid, tagid FROM tags
    # sql_attr_multi        = uint tag from ranged-query; \
    #   SELECT docid, tagid FROM tags WHERE id>=$start AND id<=$end; \
    #   SELECT MIN(docid), MAX(docid) FROM tags
  
    ## 字符串属性。
    # sql_attr_string       = stitle
  
    ## 文档词汇数记录属性。比如下面就是在索引建立的时候增加一个词汇数的字段
    # sql_attr_str2wordcount    = stitle
  
    ## 字符串字段,可全文搜索,可返回原始文本信息。
    # sql_field_string  = author
  
    ## 文档词汇数记录字段,可全文搜索,可返回原始信息
    # sql_field_str2wordcount   = title
  
    ## 取后查询,在sql_query执行后立即操作。
    ## 它和sql_query_post_index的区别就是执行时间不同
    ## sql_query_post是在sql_query执行后执行,而sql_query_post_index是在索引建立完成后才执行。
    ## 所以如果要记录最后索引执行时间,那么应该在sql_query_post_index中执行。
    # sql_query_post        =
  
    ## 参考sql_query_post的说明。
    # sql_query_post_index  = REPLACE INTO counters ( id, val ) \
    #   VALUES ( 'max_indexed_id', $maxid )
  
    ## 命令行获取信息查询。
    ## 什么意思呢?
    ## 我们进行索引一般只会返回主键id,而不会返回表中的所有字段。
    ## 但是在调试的时候,我们一般需要返回表中的字段,那这个时候,就需要使用sql_query_info。
    ## 同时这个字段只在控制台有效,在api中是无效的。
    sql_query_info      = SELECT * FROM documents WHERE id=$id
  
    ## 比如有两个索引,一个索引比较旧,一个索引比较新,那么旧索引中就会有数据是旧的。
    ## 当我要对两个索引进行搜索的时候,哪些数据要按照新的索引来进行查询呢。
    ## 这个时候就使用到了这个字段了。
    ## 这里的例子(http://www.coreseek.cn/docs/coreseek_4.1-sphinx_2.0.1-beta.html#conf-sql-query-killlist)给的非常清晰了。
    # sql_query_killlist    = SELECT id FROM documents WHERE edited>=@last_reindex
  
    ## 下面几个压缩解压的配置都是为了一个目的:让索引重建的时候不要影响数据库的性能表现。
    ## SQL数据源解压字段设置
    # unpack_zlib       = zlib_column
    ## MySQL数据源解压字段设置
    # unpack_mysqlcompress  = compressed_column
    # unpack_mysqlcompress  = compressed_column_2
    ## MySQL数据源解压缓冲区设置
    # unpack_mysqlcompress_maxsize  = 16M
  
  
    ## xmlpipe的数据源就是一个xml文档
    # type          = xmlpipe
  
    ## 读取数据源的命令
    # xmlpipe_command       = cat /home/yejianfeng/instance/coreseek/var/test.xml
  
    ## 字段
    # xmlpipe_field     = subject
    # xmlpipe_field     = content
  
    ## 属性
    # xmlpipe_attr_timestamp    = published
    # xmlpipe_attr_uint = author_id
  
    ## UTF-8修复设置
    ## 只适用xmlpipe2数据源,数据源中有可能有非utf-8的字符,这个时候解析就有可能出现问题
    ## 如果设置了这个字段,非utf-8序列就会全部被替换为空格。
    # xmlpipe_fixup_utf8    = 1
}
  
## sphinx的source是有继承这么一种属性的,意思就是除了父source之外,这个source还有这个特性
source src1throttled : src1
{
    sql_ranged_throttle = 100
}
  
## 索引src1
index src1
{
    ## 索引类型,包括有plain,distributed和rt。分别是普通索引/分布式索引/增量索引。默认是plain。
    # type          = plain
  
    ## 索引数据源
    source          = src1
    ## 索引文件存放路径
    path            = /home/yejianfeng/instance/coreseek/var/data/src1
  
    ## 文档信息的存储模式,包括有none,extern,inline。默认是extern。
    ## docinfo指的就是数据的所有属性(field)构成的一个集合。
    ## 首先文档id是存储在一个文件中的(spa)
    ## 当使用inline的时候,文档的属性和文件的id都是存放在spa中的,所以进行查询过滤的时候,不需要进行额外操作。
    ## 当使用extern的时候,文档的属性是存放在另外一个文件(spd)中的,但是当启动searchd的时候,会把这个文件加载到内存中。
    ## extern就意味着每次做查询过滤的时候,除了查找文档id之外,还需要去内存中根据属性进行过滤。
    ## 但是即使这样,extern由于文件大小小,效率也不低。所以不是有特殊要求,一般都是使用extern
    docinfo         = extern
  
    ## 缓冲内存锁定。
    ## searchd会讲spa和spi预读取到内存中。但是如果这部分内存数据长时间没有访问,则它会被交换到磁盘上。
    ## 设置了mlock就不会出现这个问题,这部分数据会一直存放在内存中的。
    mlock           = 0
  
    ## 词形处理器
    ## 词形处理是什么意思呢?比如在英语中,dogs是dog的复数,所以dog是dogs的词干,这两个实际上是同一个词。
    ## 所以英语的词形处理器会讲dogs当做dog来进行处理。
    morphology      = none
  
    ## 词形处理有的时候会有问题,比如将gps处理成gp,这个设置可以允许根据词的长度来决定是否要使用词形处理器。
    # min_stemming_len  = 1
  
    ## 词形处理后是否还要检索原词?
    # index_exact_words = 1
  
    ## 停止词,停止词是不被索引的词。
    # stopwords     = /home/yejianfeng/instance/coreseek/var/data/stopwords.txt
  
    ## 自定义词形字典
    # wordforms     = /home/yejianfeng/instance/coreseek/var/data/wordforms.txt
  
    ## 词汇特殊处理。
    ## 有的一些特殊词我们希望把它当成另外一个词来处理。比如,c++ => cplusplus来处理。
    # exceptions        = /home/yejianfeng/instance/coreseek/var/data/exceptions.txt
  
    ## 最小索引词长度,小于这个长度的词不会被索引。
    min_word_len        = 1
  
    ## 字符集编码类型,可以为sbcs,utf-8。对于Coreseek,还可以有zh_cn.utf-8,zh_ch.gbk,zh_ch.big5
    charset_type        = sbcs
  
    ## 字符表和大小写转换规则。对于Coreseek,这个字段无效。
    # 'sbcs' default value is
    # charset_table     = 0..9, A..Z->a..z, _, a..z, U+A8->U+B8, U+B8, U+C0..U+DF->U+E0..U+FF, U+E0..U+FF
    #
    # 'utf-8' default value is
    # charset_table     = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F
  
    ## 忽略字符表。在忽略字符表中的前后词会被连起来当做一个单独关键词处理。
    # ignore_chars      = U+00AD
  
    ## 是否启用通配符,默认为0,不启用
    # enable_star       = 1
  
    ## min_prefix_len,min_infix_len,prefix_fields,infix_fields都是在enable_star开启的时候才有效果。
    ## 最小前缀索引长度
    ## 为什么要有这个配置项呢?
    ## 首先这个是当启用通配符配置启用的前提下说的,前缀索引使得一个关键词产生了多个索引项,导致索引文件体积和搜索时间增加巨大。
    ## 那么我们就有必要限制下前缀索引的前缀长度,比如example,当前缀索引长度设置为5的时候,它只会分解为exampl,example了。
    # min_prefix_len        = 0
    ## 最小索引中缀长度。理解同上。
    # min_infix_len     = 0
  
    ## 前缀索引和中缀索引字段列表。并不是所有的字段都需要进行前缀和中缀索引。
    # prefix_fields     = filename
    # infix_fields      = url, domain
  
    ## 词汇展开
    ## 是否尽可能展开关键字的精确格式或者型号形式
    # expand_keywords       = 1
  
    ## N-Gram索引的分词技术
    ## N-Gram是指不按照词典,而是按照字长来分词,这个主要是针对非英文体系的一些语言来做的(中文、韩文、日文)
    ## 对coreseek来说,这两个配置项可以忽略。
    # ngram_len     = 1
    # ngram_chars       = U+3000..U+2FA1F
  
    ## 词组边界符列表和步长
    ## 哪些字符被看做分隔不同词组的边界。
    # phrase_boundary       = ., ?, !, U+2026 # horizontal ellipsis
    # phrase_boundary_step  = 100
  
    ## 混合字符列表
    # blend_chars       = +, &, U+23
    # blend_mode        = trim_tail, skip_pure
  
    ## html标记清理,是否从输出全文数据中去除HTML标记。
    html_strip      = 0
  
    ## HTML标记属性索引设置。
    # html_index_attrs  = img=alt,title; a=title;
  
    ## 需要清理的html元素
    # html_remove_elements  = style, script
  
    ## searchd是预先打开全部索引还是每次查询再打开索引。
    # preopen           = 1
  
    ## 字典文件是保持在磁盘上还是将他预先缓冲在内存中。
    # ondisk_dict       = 1
  
    ## 由于在索引建立的时候,需要建立临时文件和和副本,还有旧的索引
    ## 这个时候磁盘使用量会暴增,于是有个方法是临时文件重复利用
    ## 这个配置会极大减少建立索引时候的磁盘压力,代价是索引建立速度变慢。
    # inplace_enable        = 1
    # inplace_hit_gap       = 0 # preallocated hitlist gap size
    # inplace_docinfo_gap   = 0 # preallocated docinfo gap size
    # inplace_reloc_factor  = 0.1 # relocation buffer size within arena
    # inplace_write_factor  = 0.1 # write buffer size within arena
  
    ## 在经过过短的位置后增加位置值
    # overshort_step        = 1
  
    ## 在经过 停用词 处后增加位置值
    # stopword_step     = 1
  
    ## 位置忽略词汇列表
    # hitless_words     = all
    # hitless_words     = hitless.txt
  
    ## 是否检测并索引句子和段落边界
    # index_sp          = 1
  
    ## 字段内需要索引的HTML/XML区域的标签列表
    # index_zones       = title, h*, th
}
  
index src1stemmed : src1
{
    path            = /home/yejianfeng/instance/coreseek/var/data/src1stemmed
    morphology      = stem_en
}
  
index dist1
{
    type            = distributed
  
    local           = src1
    local           = src1stemmed
  
    ## 分布式索引(distributed index)中的远程代理和索引声明
    agent           = localhost:9313:remote1
    agent           = localhost:9314:remote2,remote3
    # agent         = /var/run/searchd.sock:remote4
  
    ## 分布式索引( distributed index)中声明远程黑洞代理
    # agent_blackhole       = testbox:9312:testindex1,testindex2
  
    ## 远程代理的连接超时时间
    agent_connect_timeout   = 1000
  
    ## 远程查询超时时间
    agent_query_timeout = 3000
}
  
index rt
{
    type            = rt
  
    path            = /home/yejianfeng/instance/coreseek/var/data/rt
  
    ## RT索引内存限制
    # rt_mem_limit      = 512M
  
    ## 全文字段定义
    rt_field        = title
    rt_field        = content
  
    ## 无符号整数属性定义
    rt_attr_uint        = gid
  
    ## 各种属性定义
    # rt_attr_bigint        = guid
    # rt_attr_float     = gpa
    # rt_attr_timestamp = ts_added
    # rt_attr_string        = author
}
  
indexer
{
    ## 建立索引的时候,索引内存限制
    mem_limit       = 32M
  
    ## 每秒最大I/O操作次数,用于限制I/O操作
    # max_iops      = 40
  
    ## 最大允许的I/O操作大小,以字节为单位,用于I/O节流
    # max_iosize        = 1048576
  
    ## 对于XMLLpipe2数据源允许的最大的字段大小,以字节为单位
    # max_xmlpipe2_field    = 4M
  
    ## 写缓冲区的大小,单位是字节
    # write_buffer      = 1M
  
    ## 文件字段可用的最大缓冲区大小,字节为单位
    # max_file_field_buffer = 32M
}
  
## 搜索服务配置
searchd
{
    # listen            = 127.0.0.1
    # listen            = 192.168.0.1:9312
    # listen            = 9312
    # listen            = /var/run/searchd.sock
  
    ## 监听端口
    listen          = 9312
    listen          = 9306:mysql41
  
    ## 监听日志
    log         = /home/yejianfeng/instance/coreseek/var/log/searchd.log
  
    ## 查询日志
    query_log       = /home/yejianfeng/instance/coreseek/var/log/query.log
  
    ## 客户端读超时时间 
    read_timeout        = 5
  
    ## 客户端持久连接超时时间,即客户端读一次以后,持久连接,然后再读一次。中间这个持久连接的时间。
    client_timeout      = 300
  
    ## 并行执行搜索的数目
    max_children        = 30
  
    ## 进程id文件
    pid_file        = /home/yejianfeng/instance/coreseek/var/log/searchd.pid
  
    ## 守护进程在内存中为每个索引所保持并返回给客户端的匹配数目的最大值
    max_matches     = 1000
  
    ## 无缝轮转。防止 searchd 轮换在需要预取大量数据的索引时停止响应
    ## 当进行索引轮换的时候,可能需要消耗大量的时间在轮换索引上。
    ## 但是启动了无缝轮转,就以消耗内存为代价减少轮转的时间
    seamless_rotate     = 1
  
    ## 索引预开启,是否强制重新打开所有索引文件
    preopen_indexes     = 1
  
    ## 索引轮换成功之后,是否删除以.old为扩展名的索引拷贝
    unlink_old      = 1
  
    ## 属性刷新周期
    ## 就是使用UpdateAttributes()更新的文档属性每隔多少时间写回到磁盘中。
    # attr_flush_period = 900
  
    ## 索引字典存储方式
    # ondisk_dict_default   = 1
  
    ## 用于多值属性MVA更新的存储空间的内存共享池大小
    mva_updates_pool    = 1M
  
    ## 网络通讯时允许的最大的包的大小
    max_packet_size     = 8M
  
    ## 崩溃日志文件
    # crash_log_path        = /home/yejianfeng/instance/coreseek/var/log/crash
  
    ## 每次查询允许设置的过滤器的最大个数
    max_filters     = 256
  
    ## 单个过滤器允许的值的最大个数
    max_filter_values   = 4096
  
    ## TCP监听待处理队列长度
    # listen_backlog        = 5
  
    ## 每个关键字的读缓冲区的大小
    # read_buffer       = 256K
  
    ## 无匹配时读操作的大小
    # read_unhinted     = 32K
  
    ## 每次批量查询的查询数限制
    max_batch_queries   = 32
  
    ## 每个查询的公共子树文档缓存大小
    # subtree_docs_cache    = 4M
  
    ## 每个查询的公共子树命中缓存大小
    # subtree_hits_cache    = 8M
  
    ## 多处理模式(MPM)。 可选项;可用值为none、fork、prefork,以及threads。 默认在Unix类系统为form,Windows系统为threads。
    workers         = threads # for RT to work
  
    ## 并发查询线程数
    # dist_threads      = 4
  
    ## 二进制日志路径
    # binlog_path       = # disable logging
    # binlog_path       = /home/yejianfeng/instance/coreseek/var/data # binlog.001 etc will be created there
  
    ## 二进制日志刷新
    # binlog_flush      = 2
  
    ## 二进制日志大小限制
    # binlog_max_log_size   = 256M
  
    ## 线程堆栈
    # thread_stack          = 128K
  
    ## 关键字展开限制
    # expansion_limit       = 1000
  
    ## RT索引刷新周期 
    # rt_flush_period       = 900
  
    ## 查询日志格式
    ## 可选项,可用值为plain、sphinxql,默认为plain。 
    # query_log_format      = sphinxql
  
    ## MySQL版本设置
    # mysql_version_string  = 5.0.37
  
    ## 插件目录
    # plugin_dir            = /usr/local/sphinx/lib
  
    ## 服务端默认字符集
    # collation_server      = utf8_general_ci
    ## 服务端libc字符集
    # collation_libc_locale = ru_RU.UTF-8
  
    ## 线程服务看守
    # watchdog              = 1
    ## 兼容模式
    # compat_sphinxql_magics    = 1
}

6) php配置Sphinx扩展

## 安装Sphinx扩展包
wget http://pecl.php.net/get/sphinx-1.3.3.tgz

tar -xvzf sphinx-1.3.3.tgz

cd sphinx-1.3.3

/usr/local/php/bin/phpize

./configure --with-php-config=/usr/local/php/bin/php-config

make && make install

## 修改php.ini配置文件,加入下面内容

[sphinx]

extension=sphinx.so

2.2 命令行操作

## 开始将数据源src1导入Sphinx引擎
/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/sphinx.conf src1

## 将所有数据源导入Sphinx引擎
/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/sphinx.conf --all

## 开始运行Sphinx引擎
/usr/local/coreseek/bin/searcher -c /usr/local/coreseek/etc/sphinx.conf

## 停止运行Sphinx引擎
/usr/local/coreseek/bin/searcher -c /usr/local/coreseek/etc/sphinx.conf --stop

2.3 PHP操作Sphinx客户端

2.3.1 php配置Sphinx扩展

Sphinx扩展下载地址:PECL :: Package :: sphinx

2.3.2 php操作方法

<?php

//实例化Sphinx对象
$sc = new SphinxClient();

//连接sphinx服务器
$sc->setServer('120.27.202.51', 9312);

//设置匹配模式
// SPH_MATCH_ALL:匹配所有查询词(默认模式)
// SPH_MATCH_ANY:匹配查询词中的任意一个
// SPH_MATCH_PHRASE:将整个查询看作一个词组,要求按顺序完整匹配
// SPH_MATCH_BOOLEAN:将查询看作一个布尔表达式(允许使用特殊的操作符)
// SPH_MATCH_FULLSCAN:强制使用下文所述的“完整扫描”模式来对查询进行匹配
// SPH_MATCH_EXTENDED2:将查询看作一个CoreSeek/Sphinx内部查询语言的表达式,后后面有详细的表格说明
$sc->SetMatchMode(SPH_MATCH_EXTENDED2);

$sc->query('@type '.$category.' @paper_author "'.$author_val_arr[$key].'"  @(paper,paper_keyword,abstract,paper_chinese,abstract_chinese) '.$keyword, 'paper');

//分页,四个参数分别代表偏移量、条数、返回的数据的最大值、当查询数量超过该值就停止查询
$page = input('page', 1);
$sc->SetLimits(($page-1)*10, 10, 2000000, 0);

//排序模式,按照create_time倒叙排序
// SPH_SORT_RELEVANCE 模式, 按相关度降序排列(最好的匹配排在最前面)
// SPH_SORT_ATTR_DESC 模式, 按属性降序排列 (属性值越大的越是排在前面)
// SPH_SORT_ATTR_ASC 模式, 按属性升序排列(属性值越小的越是排在前面)
// SPH_SORT_TIME_SEGMENTS 模式, 先按时间段(最近一小时/天/周/月)降序,再按相关度降序
// SPH_SORT_EXTENDED 模式, 按一种类似SQL的方式将列组合起来,升序或降序排列。
// SPH_SORT_EXPR 模式,按某个算术表达式排序。
$sc->SetSortMode(SPH_SORT_EXTENDED, "create_time DESC");

//设置过滤条件
$sc->SetFilter("type", array(1,3,5)); 

//设置过滤范围
$from = 2015;
$end = 2024;
$sc->SetFilterRange('year', $from, $end);

//统计归类并按照统计数量排序,类似SQL的方式
$sc->setGroupBy('cat_id', SPH_GROUPBY_ATTR, "@count desc");

//重置过滤条件
//$sc->ResetFilters();

//重置分组 
//$sp->ResetGroupBy(); 

//src1是数据源
//查询条件:field1匹配key1,field2匹配key2,field3或者field4匹配key3,然后这三项要同时符合要求
$name1 = 'key1';
$name2 = 'key2';
$name3 = 'key3';
$sc->query("@field1 {$name1} @field2 {$name2} @(field3,field4) {$name3}", 'src1');

//合并查询获取结果集
$result = $sc->RunQueries();

SPH_MATCH_EXTENDED2模式的规则: 

操作符示例释义
操作符OR

look | at

匹配含有look或者at

操作符NOTlook -at 或者  look !at

区配包含hello,且不包含world

字段搜索操作符@@descr look @content at

匹配descr中有look及content中有at【字段匹配】

字段限位修饰符@[]@descr[5] looks

匹配descr字段前5个词中包含有looks【字段匹配】

多字段搜索符@()@(descr,content) look

匹配descr或content包含有look【字段匹配】

全字段搜索符@*@* look

区配任何一列包含有look【字段匹配】

阀值匹配符"the word is a Puzzle"/3

匹配至少包含有3个词

短语(phrase)搜索符"the word"

匹配任何一个词

临近(proximity)搜索符"the word"~6

匹配the与word之间小于6个词

严格有序搜索符aaa<<bbb<<ccc< td="">

匹配aaa,bbb,ccc按顺序出现

字段开始和字段结束修饰符^the word$

匹配以the开始,word为结尾

隐式操作符AND"the word"

the与word都要出现在匹配的记录中

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1413125.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

455. 分发饼干 - 力扣(LeetCode)

题目描述 假设你是一位很棒的家长&#xff0c;想要给你的孩子们一些小饼干。但是&#xff0c;每个孩子最多只能给一块饼干。 对每个孩子 i&#xff0c;都有一个胃口值 g[i]&#xff0c;这是能让孩子们满足胃口的饼干的最小尺寸&#xff1b;并且每块饼干 j&#xff0c;都有一个尺…

作者推荐 | 【深入浅出MySQL】「底层原理」探秘缓冲池的核心奥秘,揭示终极洞察

探秘缓冲池的核心奥秘&#xff0c;揭示终极洞察 缓存池BufferPool机制MySQL缓冲池缓冲池缓冲池的问题 缓冲池的原理数据预读程序的局部性原则&#xff08;集中读写原理&#xff09;时间局部性空间局部性 innodb的数据页查询InnoDB的数据页InnoDB缓冲池缓存数据页InnoDB缓存数据…

区间dp/线性dp,HDU 4293 Groups

一、题目 1、题目描述 After the regional contest, all the ACMers are walking alone a very long avenue to the dining hall in groups. Groups can vary in size for kinds of reasons, which means, several players could walk together, forming a group.   As the …

RuoYi-Vue前后端分离后台开发框架运行详细教程

一、官网下载代码 RuoYi-Vue是一款基于SpringBootVue的前后端分离极速后台开发框架。 若依官网&#xff1a;http://ruoyi.vip演示地址&#xff1a;http://vue.ruoyi.vip代码下载&#xff1a;https://gitee.com/y_project/RuoYi-Vue 下载之后解压&#xff0c;ruoyi-ui是前端代…

【JavaWeb】过滤器 Filter

文章目录 过滤器是什么&#xff1f;一、过滤器概述二、过滤器工作位置图解三、Filter接口API四、过滤器使用4.1 定义一个过滤器类,编写功能代码&#xff1a;4.2 xml配置&#xff1a;4.3 定义 servletG 目标资源 模拟测试 :4.4 过滤图解 五、过滤器生命周期六、过滤器链的使用6.…

香港服务器IP段4c和8c的区别及SEO选择建议

随着互联网的快速发展&#xff0c;服务器IP段的选择对于网站SEO优化至关重要。香港服务器IP段4C和8C是两种常见的IP段&#xff0c;它们在SEO优化中具有不同的特点和优势。本文将详细介绍这两种IP段的区别&#xff0c;并给出相应的SEO选择建议。 一、香港服务器IP段4C和8C的区别…

每日coding 2846. 边权重均等查询 236. 二叉树的最近公共祖先 35. 搜索插入位置 215. 数组中的第K个最大元素 2. 两数相加

2846. 边权重均等查询 xs&#xff0c;已放弃&#xff0c;考到直接寄 236. 二叉树的最近公共祖先 236. 二叉树的最近公共祖先 给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。 百度百科中最近公共祖先的定义为&#xff1a;“对于有根树 T 的两个节点 p、q&…

向量表示在自然语言、知识图谱和图像视觉中的应用

目录 前言1 不同应用的向量表示1.1 自然语言中的向量表示1.2 知识图谱中的向量表示1.3 图像视觉中的向量表示 2 词的向量表示2.1 One-hot encoding的限制2.2 Bag-of-Words模型的不足2.3 Word Embedding的引入2.4. 词的分布式表示与语境关系 3 词向量模型3.1 CBoW&#xff08;Co…

swagger2 和 knife4j 整合

swagger整合knife4j 导入依赖 <dependency><groupId>com.github.xiaoymin</groupId><artifactId>knife4j-spring-boot-starter</artifactId><version>3.0.2</version></dependency>引入配置 我们自己写一个配置类也好,我这里写…

乐观锁的底层实现以及如何解决ABA问题

什么是乐观锁&#xff1f;乐观锁底层是如何实现的&#xff1f; 乐观锁是一种并发控制的策略。在操作数据的时候&#xff0c;线程读取数据的时候不会进行加锁&#xff0c;先去查询原值&#xff0c;操作的时候比较原来的值&#xff0c;看一下是都被其他线程修改&#xff0c;如果…

OpenHarmony—TypeScript到ArkTS约束说明

对象的属性名必须是合法的标识符 规则&#xff1a;arkts-identifiers-as-prop-names 级别&#xff1a;错误 在ArkTS中&#xff0c;对象的属性名不能为数字或字符串。通过属性名访问类的属性&#xff0c;通过数值索引访问数组元素。 TypeScript var x { name: x, 2: 3 };c…

STM32标准库开发—W25Q64详细介绍

W25Q64简介 Flash编程原理都是只能将1写为0&#xff0c;而不能将0写成1.所以在Flash编程之前&#xff0c;必须将对应的块擦除&#xff0c;而擦除的过程就是将所有位都写为1的过程&#xff0c;块内的所有字节变为0xFF.因此可以说&#xff0c;编程是将相应位写0的过程&#xff0c…

Ubuntu 22.04 安装tomcat

tomcat是常用的Java服务容器,这篇文章我们就来讲讲如何安装它。 更新软件包 首先是更新软件包,这是最常规的操作 sudo apt update 然后是开始安装,不多一会就可以安装好了 sudo apt install tomcat9 然后看一下状态 sudo systemctl status tomcat9 发现虽然启动了,但…

IS-IS:03 ISIS链路状态数据库

一个 OSPF 链路状态数据库是若干条 LSA 的集合。与此相似&#xff0c;一个 IS-IS 链路状态数据库是若干条 LSP 的集合。与 OSPF 链路状态数据库不同&#xff0c; IS-IS 链路状态数据库有 level-1 和 level-2 之分。 在IS-IS 协议中&#xff0c;每一条 LSP 都有一个剩余生存时间…

自学Java的第48,49,50,51天

IO流 应用场景 IO流的分类 文件字节输入流 写法 读取一个字节 读取多个字节 优化&#xff1a; 注意&#xff1a; 读取全部字节 写法 注意&#xff1a; 文件字节输出流 写法 案例&#xff1a; 写法 释放资源的方法 try-catch-finally 写法 try-with-resource 写法 字符流 …

linux内网搭建NFS网络文件系统(rpm)

linux 内网搭建nfs网络文件系统&#xff08;rpm包&#xff09; 前言&#xff1a;一、上传安装包到服务器二、NFS服务端配置三、建立共享目录(服务器端和客户端)四、添加配置共享目录&#xff08;服务器端&#xff09;五、NFS客户端配置六、测试共享服务 前言&#xff1a; 用自…

Type-C平板接口协议芯片介绍,实现单C口充放电功能

在现代平板电脑中&#xff0c;Type-C接口已经成为了一个非常常见的接口类型。相比于传统的USB接口&#xff0c;Type-C接口具有更小的体积、更快的传输速度和更方便的插拔体验。但是&#xff0c;在使用Type-C接口的平板电脑上&#xff0c;如何实现单C口充电、放电和USB2.0数据传…

【iOS ARKit】同时开启前后摄像头BlendShapes

在上一节中已经了解了 iOS ARkit 进行BlendShapes的基本操作&#xff0c;这一小节继续实践同时开启前后摄像头进行人脸捕捉和世界追踪。 iOS设备配备了前后两个摄像头&#xff0c;在运行AR 应用时&#xff0c;需要选择使用哪个摄像头作为图像输人。最常见的AR 体验使用设备后置…

修复WordPress内部服务器错误的步骤及解决方案

WordPress是一款广泛使用的开源内容管理系统&#xff0c;但在使用过程中&#xff0c;可能会遇到各种内部服务器错误。这些错误可能由于多种原因引起&#xff0c;例如插件冲突、文件权限问题、服务器配置不当等。为了帮助您快速解决这些问题&#xff0c;本文将为您提供一套详细的…

行测-言语:2.语句表达

行测-言语&#xff1a;2.语句表达 1. 语句排序题 捆绑就是看两句话是不是讲的同一个内容&#xff0c;相同内容的句子应该相连。 1.1 确定首句 1.1.1 下定义&#xff08;……就是 / 是指&#xff09; A 1.1.2 背景引入&#xff08;随着、近年来、在……大背景 / 环境下&#…