php连接sphinx的长连接事宜以及sphinx的排除查询以及关于sphinx里使用SetSelect进行复杂的条件过滤或复杂查询

news2025/1/11 17:42:28

一、php连接sphinx的长连接事宜以及sphinx的排除查询

    在使用php连接sphinx时,默认的sphinx连接非长连接,于是在想php连接sphinx能否进行一些优化 publish:January 9, 2018 -Tuesday:

    方法:public bool SphinxClient::open ( void ) — 建立到搜索服务端的持久连接。此函数没有参数。成功时返回 TRUE,或者在失败时返回FALSE。在网上了解到php调用sphinx api进行长连接时,并不是我们想象中的那样会在php-fpm的fastcgi状态下一直与sphinx的searchd进程保持长连接,sphinx的api接口中open()方法仅仅提供了在一次会话请求中保证多个sphinx调用在单个php进程中是共用一个sphinx tcp连接通道,当php解释运行完,与sphinx的连接也会自动断开,而不是保持连接状态。看到这里我觉得我的业务中使用这项那就没有什么意义了,因为我的业务中基本都是连接sphinx执行一次查询然后结束。不过我在线上业务时谨慎地在一台服务器上尝试查看这种情况.

    在一台WEB上打开长连接,同时观察着sphinx的连接数据(我这里中间有haproxy作为中转),如果这个长连接能实现php与searchd的长连接,那么改了一台服务器后,因为线上一直有请求,则我的WEB上所有的PHP-FPM进程就应该都能保持一个与sphinx的连接(单台WEB上是60个php进程,理论上应该proxy上的sphinx请求能增加到60左右),而如果真是在php请求结束后就断开sphinx,则不会对proxy上的数据有任何影响。使用之后发现这个数据确实没有什么变化。如下图即是我依据的数据:

    而如果sphinx的长连接真的只有这个意义的话,那我感觉它没有什么意义,因为在一个php请求中,除非我们自己去关闭,否则它不会关闭(当然超时除外,但这种情况正常情况基本不会出现)。查看spinx的api看的open方法,发现其就是判断当前是否connect,如果连接了就返回false,如果没有就执行一次连接。而实际在执行query查询的时候它本身也会去调用_Connect判断并重新连接了sphinx,即表示即使在php进程执行中sphinx连接超时中断,但随后你再进行query查询,依然会自动连接sphinx.不需要保存这个长连接。sphinx的api里的open方法如下:

#sphinx的api中的open方法
function Open()
{
    if ( $this->_socket !== false )
    {
        $this->_error = 'already connected';
        return false;
    }
    if ( !$fp = $this->_Connect() )
        return false;

    // command, command version = 0, body length = 4, body = 1
    $req = pack ( "nnNN", SEARCHD_COMMAND_PERSIST, 0, 4, 1 );
    if ( !$this->_Send ( $fp, $req, 12 ) )
        return false;

    $this->_socket = $fp;
    return true;
}

#open方法里调用的_Send方法
function _Send ( $handle, $data, $length )
{
    if ( feof($handle) || fwrite ( $handle, $data, $length ) !== $length )
    {
        $this->_error = 'connection unexpectedly closed (timed out?)';
        $this->_connerror = true;
        return false;
    }
    return true;
}

    如果不能保持php-fpm进程与sphinx的长连接,依然是每次客户端向php发送请求(即使是同一个php-fpm进程处理),仍需要执行sphinx连接的话,确实未发现这个open方法有什么意义。

    在使用sphinx时,大多数情况下是进行过滤,但有时有特殊需要进行一些排它查询,比如不需要某个ID的值出来。比如:在查询某篇文章相关联的文章时,不要把这篇文章本身查询出来。如果你的article_id字段在sphinx配置文件建的是字段xmlpipe_field_string,则可以使用:

$query.="!@article_id ".$id;    #注意@号之前的感叹号
$Sphinx->query($query)

 如果你的article_id字段在sphinx配置文件建的是属性xmlpipe_attr_uint,则可以使用:

$Sphinx->SetFilter('article_id', array($id), true);  #注意最后一个参数,其就是排除的意义

 二、关于sphinx里使用SetSelect进行复杂的条件过滤或复杂查询

    sphinx提供了filter过滤以及通过关键词进行query查询,但简单的query一个关键词并不能满足我们的查询要求,filter并不能支持复杂的逻辑组合运算,过滤条件都只是多重的叠加,即AND操作,并不支持。比如我们有很多文章内容及其它属性已经建好索引,如果要在一次查询中实现查询今天发表的新闻和昨天发表的非新闻文章中带有关键词新闻的内容查询出来。如果使用filter的话就没法处理了,因为filter即不能用于过滤文章类别,也不能用于过滤发表时间。

    可见sphinx的filter不能用于单条件多重过滤,如上即时间不能过滤今天同时又过滤昨天,类别不能用于过滤新闻又同时过滤非新闻。这个时间我们就要考虑使用sphinx的复杂查询了。

    写过SQL的话我们一定对复杂查询不陌生,sphinx的复杂查询的实现方式有点类似于自定义的SQL查询。从而筛选出我们需要的数据。写sphinx的复杂查询就相当于写mysql的where条件。

    SetSelect这个api,可以实现sphinx进行自定义复杂查询条件 publish:January 12, 2018 -Friday。

#(PECL sphinx >= 1.0.1)
#SphinxClient::setSelect — Set select clause
public bool SphinxClient::setSelect ( string $clause )
#Sets the select clause, listing specific attributes to fetch, and expressions to compute and fetch. 

 我目前使用过的sphinx里SetSelect的几个复杂SQL写法如下,当然肯定不只这些。

1:计算数据值

        有时内容的权重并不是依靠某个字段,而是依靠一个计算值,比如把文章按总热度排序,假设我们的条件是把文章的评论数以阅读数的1%相加来得出,这时我们就可以使用下面的方法来计算:

#根据多个字段计算数值as成某个字段(像sql)一样,然后在后面再利用这个字段,比如SetSortMode使用weighta排序
$cl->SetSelect ( "*, (views * 0.01 + comments) AS weighta" );

2:简单if判断

        比如要查询今天发表的新闻和昨天之后发表的非新闻文章。

#先设置生成myfilter字段,再用filter过滤这个字段为真即可
$cl->SetSelect ( "*, ( if( ((public_time>=16843434 , 1,0) AND type=1 ) AND 
                           ((public_time>=16813434 , 1,0) AND type>1 ) 
                          ) AS myfilter" );

3:IN查询

        比如要查询PHP和sphinx以及linux等类栏目中里今天发表的文章。

#如下1,2,3,4分别是各类的ID,使用逗号分开直接写在过滤字段后面,
$cl->SetSelect ( "*, IF( IN(type, 1,2,3,4) AND public_time>=16843434, 1, 0) AS myfilter" );

 其它:

        另外查询中还可以使用@调用sphinx的数据,比如 @weight可以调用sphinx系统中的权重值,可拿来进行进一步的计算。Starting with version 0.9.9-rc2, 复杂查询中可以支持aggregate functions (AVG(), MIN(), MAX(), SUM()) are supported when using GROUP BY.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2040352.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

24/8/15算法笔记 复习_决策回归树

from sklearn.tree import DecisionTreeRegressor from sklearn import tree import numpy as np import matplotlib.pyplot as plt#创建数据 X_train np.linspace(0,2*np.pi,40).reshape(-1,1)#训练数据就是符合要求的二维数据 #二维:[[样本一].[样本二]&#xff…

Elasticsearch、Easy-es 快速入门 SearchAfterPage分页 若依前后端分离 Ruoyi-Vue SpringBoot

一、环境安装 Elasticsearch ik分词器 1.1 下载解压Elasticsearch-7.x版本,越高越好,低版本有Log4j漏洞,Easy-es目前支持7.x 1.2 IK中文分词器 将对应Elasticsearch版本IK放进文件夹,Elasticsearch-7.6.1,ik对应版…

GPT-SoVITS

文章目录 model archS1 ModelS2 model model arch S1 model: AR model–ssl tokensS2 model: VITS,ssl 已经是mel 长度线性相关,MRTE(ssl_codes_embs, text, global_mel_emb)模块,将文本加强相关,学到一个参考结果 S1 Model cla…

Lora 全文翻译

作者: 地点:hby 来源:https://arxiv.org/pdf/2106.09685 工具:文心 LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS 摘要 自然语言处理的一个重要范式包括在通用领域数据上进行大规模预训练,并适应特定任务或…

Qt自定义控件:关于大佬“飞扬青云“的自定义UI控件的使用教程(MinGw,MSVC)

前言 最近在搞自定义控件,无意间发现大佬飞扬青云的开源项目,Qt/C编写超精美自定义控件 这里先贴出大佬项目地址和博客 码云:wwlzq5/qucsdk (gitee.com)(旧版下载地址Qt4.7到Qt5.14) github:https://git…

攻克面试:高频面试题与常见算法深度剖析

干货分享,感谢您的阅读! (暂存篇---后续会删除,完整版和持续更新见高频面试题基本总结回顾(含笔试高频算法整理)) 备注:引用请标注出处,同时存在的问题请在相关博客留言…

第1章 大模型的概念、发展历程和应用领域

大模型:塑造未来的智能力量 目录 引言:大模型的定义与影响大模型的发展历程 早期探索:深度学习的起步中期发展:算法的革新与计算能力的提升当代突破:大模型的崛起 大模型的影响与未来展望 引言:大模型的定…

【设计模式】六大原则之依赖倒置原则(Dependency Inversion Principle,‌DIP)

设计模式是对相关问题提出的解决方案。 一般而言,一个模式有四个基本要素: 模式名称 (pattern name) 一个助记名,它用一两个词语来描述模式问题、解决方案和效果。问题(problem)描述了应该在何…

Unity中对Spine动画播放、暂停、事件处理管理类

Unity中对Spine动画播放、暂停、事件处理管理类 介绍Spine的事件处理动画师制作沟通Unity前端使用事件 Unity中动画播放Unity中动画暂定和继续Unity中停止动画Unity中动画转向Unity中获取骨骼和设置插槽附件完整管理类分享总结 介绍 最近在做设计spine动画的抖音小程序&#x…

RecyclerView的缓存机制(面试常客)

在构建滚动列表时,我们常首选RecyclerView,出于它优秀的缓存复用机制。 核心机制 RecyclerView的缓存机制又称回收复用机制,RecyclerView构建列表视图分为以下三步: 第一步的创建ViewHolder是RecyclerView构建视图时最耗时的操作…

鸿蒙(API 12 Beta3版)【使用通话设备切换组件】使用投播组件

基本概念 系统不再提供音频输出设备切换的API,如果需要应用内切换音频输出设备,请实现AVCastPicker组件,相关参数可参考[ohos.multimedia.avCastPicker]和 [ohos.multimedia.avCastPickerParam]。 本文将主要介绍AVCastPicker组件接入&…

【论文笔记】:PVswin-YOLOv8s:基于无人机的行人和车辆检测,使用改进的YOLOv8在智能城市中进行交通管理

摘要 在智慧城市中,有效的交通拥堵管理取决于熟练的行人和车辆检测。无人机 (UAV) 提供了一种具有移动性、成本效益和宽视野的解决方案,然而,优化识别模型对于克服小型和遮挡物体带来的挑战至关重要。为了解决这些问题…

推出 SAM 2:适用于视频和图像的下一代 Meta Segment Anything 模型

继图像元分割模型(SAM) 取得成功之后,我们发布了SAM 2,这是一个用于在图像和视频中实时提示对象分割的统一模型,可实现最先进的性能。 为了秉承我们的开放科学方针,我们通过宽松的 Apache 2.0 许可证共享代码和模型权重。 我们还…

嵌入式linux系统镜像制作day2

点击上方"蓝字"关注我们 01、前言 嵌入式linux系统镜像制作day1这一节先了解,后面实操 02、Yocto项目快速启动 Yocto项目通过OpenEmbedded构建系统为各种平台(包括x86-64和仿真平台)提供了一个针对ARM、MIPS、PowerPC和x86架构的开源开发环境。您可以使用Yocto项…

WebDeveloper:1靶机渗透测试

一、靶机下载地址 https://www.vulnhub.com/entry/web-developer-1,288/ 二、信息收集 1、主机发现 # 使用命令 nmap 192.168.145.0/24 -sn | grep -B 2 "00:0C:29:54:22:E9" 2、端口扫描 # 使用命令 nmap 192.168.145.216 -p- -sV 3、指纹识别 # 使用命令 wha…

【SpringCloud】什么是MQ

RabbitMQ 1.什么是MQ 1.1 同步和异步通信 微服务间通讯有同步和异步两种方式: 同步通讯:就例如打电话一样,需要实时响应异步通讯:就例如发邮件一样,不需要马上回复 1.1.1同步通讯 Feign的远程调用就属于同步通讯…

【数据分析】描述性统计分析 - 直方图

一、什么是直方图 由一批长方形构成,通过长方形的面积或高度来代表对应组在数据中所占的比例。用长方形的面积代表对应组的频数与组距的比时,则称为频率分布直方图;当用长方形的高代表对应组的频数时,则称为频数分布直方图。但严格统计意义上…

WT32-ETH01开发板模块,启明云端物联网方案,乐鑫ESP32多样化开发应用

在物联网(IoT)的浪潮中,无线Wi-Fi模块作为连接传统硬件与现代智能网络的桥梁,正逐渐成为智能家居和设备通信不可或缺的一部分。Wi-Fi模块也被称为串口Wi-Fi模块,是一种嵌入式模块,它能够将串口或TTL电平信号转换为符合Wi-Fi无线网…

普元EOS-多数据源时业务数据库初始化

1 问题 EOS开发应用的时候,可以采用多数据源。 项目启动的是时候报错如下: 2024-08-14 16:03:56.105 ERROR [EOS-DEMO-SYS,EOSLOWCODE,default,cuipengyu:EOSLOWCODE:28015,,,,] 28960 --- [Timer-0] c.p.g.a.a.m.RdcloudStatisticsThread : User…

66_1JSON【浏览器中处理JSON、Java中处理JSON(FastJSON、Jackson)】、Java中的bean

JSON 概念 JSON:JavaScript Object Notation是一种表示对象的方式 基于JavaScript语言的轻量级的数据交换格式;(即:用来传输数据的一种格式) 现在传输数据的方式更多是采用json的格式,渐渐代替了XML JSON的数据表示 JSON采用名值…