搜索在计算机中的地位十分重要

news2025/4/22 6:11:12

无论是在内部系统还是在外部的互联网站上,都少不了检索系统。数据是为了用户而服务。计算机在采集数据,处理数据,存储数据之后,各种客户端的操作pc机或者是移动嵌入式设备都可以很好的获取数据,得到 想要的数据服务。

检索分为SQL过滤查询和全文检索。数据都是放在数据库里,数据库里的数据量太大,要检索到精准的数据是需要很好的用户体验。用户对响应时长要求特别严格,最好控制在一定的响应时间内。SQL查询是普通的字段过滤,一般在没有走全表扫描的情况下都是性能较好的数据查询方式。全文检索的实现方式是在数据库设计的时候就有这些模块,比如MySQL的全文检索。之后在市面上有公司开发了成型的开源产品,比如Lucene等。    学过luncene框架,  能就是论事。在银行工作的时候有接触过es框架,到现在也没仔细去弄懂。每个人的学习能力不一样,有的工程师削尖了脑袋要去专研每个技术。    是在学习Java开发框架的时候接触过Lucene框架, 跟着源码敲了一遍那个搜索引擎。对于那种根据分词查询数据的方式有深刻的映像,但是并不是每个系统都是要使用全文检索分词搜索。

按需开发,意思就是根据需求进行商业开发。以用户体验为中心,金钱盈利为目的。没有谁在为 做无用功,得到与失去,不要去说,也说不准。像普通的字段搜索看起来十分简单,其实就是很简单。但是如果遇到数据量大的情况,或者是用户不会使用系统的情况下,都是有问题的。像百度,Google,搜什么就有什么,这就是全文检索。

搜索,依赖于搜索引擎。搜索引擎的建立是十分困难的事情。以  现在的水平理解的搜索,  能说个大概。  做Java 开发7年时间,虽然没有写过搜索引擎,但是没有经验的同学可以去尝试着实践下。做任何系统都是需要构建bs架构或者是cs架构,cs架构是client-server架构。

在操作系统中有客户端软件开发包,bs架构是broswer-server架构,在所有的数据操作都是在浏览器中实现,把浏览器当做一个子系统,子系统上面又有很多应用程序... bs架构是特殊的cs架构。

在大学学习计算机编程开发,首选的语言是C++。那种语言是写客户端软件, 也是学的很纠结,以为没有很好的效果。大三休学的时候学习了Java,接触全文检索,学习了前端页面的设计开发,后台数据库的建立。到现在有更多的想法和思考。爬虫的建立,爬虫是怎么从网站上爬数据,用户是怎么在网站上面搜索数据。

大学毕业之后对于搜索引擎的理解画了个草图

像  爬虫

一般的java IDE的debug是这样设计

爬虫是怎么在网站上爬数据,为什么  能爬网站的数据。现在的web浏览器都支持HTML标签编辑的网页,HTML标签页是dom元素。每个DOM元素都是一个实体对象,在数据库中体现的就是dom元素实体对象表。Dom元素表里存放的就是网页标签所承载的基础数据和一些基本属性。每当一个网站上面的标签包裹的数据发生变化,就要触发数据写write事件,即 WriteEventListener,更新索引库里的索引数据,和文档库里的文档数据。这种数据更新同步方式叫做即时同步方式,是的数据库里的数据和索引库里的数据保持一致性。用户查询数据的时候总能查到最新的数据,用户查数据都是走索引库再走文档库,这样性能更好。

至于怎么构建dom元素数据库,怎么构建dom元素索引库。那些都是商业库,需要开发注册维护,就像   在某个地方开商店一样,需要办理很多手续。

当时学习操作lucene 框架架构方式是通过AOP的方式实现数据同步。数据同步是文档库和索引库的同步操作方式。文档库存放的是Document 文档对象,索引库存放的是字段对象 Field 。字段对象 分为索引文档号和经历过分词器分词之后的关键字集合。中文分词器是Analyzer 堆中文的语句进行分词。

中文的分词器对中文语句的此法进行分析。中文的语句分为 主+谓+宾+定+状+补 . 分词器分为标准的国际分词器和中国大陆简体的中文分词器。原理十分相似,实词和虚词需要区分。实词是名词,虚词是冠词,语气词,称谓词,形容词,状态词,补语词,谓语词 。分词器分析网站上面的文章关键字,中文摘要,具体的文章正文内容。分词器的分词结果生成关键字和文档索引组装成的字段 Field 对象。字段对象集合 fieldList 放在lucene 索引库中。文档库中存放大量的文档对象,文档Document 与 字段 Field 对象的索引表中的文档索引关联。

用户在前端使用日用语句在lucene搜索引擎中搜索数据集合的过程十分复杂。简单的过程可以分为

  1. 查询语句词的录入接收。
  2. 后台对中文查询语句分词,抽取关键字形成关键字集合。
  3. 使用关键字集合在lucene索引库 中的关键字进行匹配,匹配成功会有文档集合 documentList 。
  4. 文档集合返回给业务逻辑层 service . 使用高亮器hlighter 对文档中的存在的关键词高亮。
  5. 文档集合的返回通过评分对象 score 综合得分排序。
    1. 命中文档的得分 score 有默认的得分规则和自定义得分规则。

数据同步在企业项目中使用很多。平安集团的hrx人力资源管理系统使用Elasticsearch 搜索引擎搜索数据。Lucene 和 Elasticsearch 两种引擎搜索数据的方式都是全文检索。全文检索在数据库软件中普遍存在。企业的IDE 开发环境有搜索框的地方或许会有全文检索的影子。软件和应用程序系统都有数据。检索方式分为通过表单的方式和一个表单输入框的方式。一个表单输入框的输入方式面向的用户是大众化的互联网网名。Java 的web信息系统安全新能和开发维护团队有保障,使用sql 查询语句查找数据的方式限制用户量。内部系统的用户量分为内部用户和外围用户。使用sql查询语句查询数据使用全文检索索引库和文档库。数据查询是否全表还是走索引表有用户自定义,系统默认,AI 算法相应的操作模式。

数据同步索引库和文档库中的数据。同步平安银行ES库和PJ 库中的数据。开发任务涉及到项目不同版本发布的同步数据代码。数据量大小和性能问题对于开发工程师是更高级别的操作。保证数据的正确性,代码的质量高低。项目组之间的工程师都会相互借阅不同开发分支的代码。每个开发都会有不同的编写代码的方式。

Elasticsearch 搜索原理和Lucene 类似。每个企业采用的技术架构选型不尽相同。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/639590.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

k8s学习-CKS考试必过宝典

目录 CKS考纲集群安装:10%集群强化:15%系统强化:15%微服务漏洞最小化:20%供应链安全:20%监控、日志记录和运行时安全:20% 报名模拟考试考试注意事项考前考中考后 参考 CKS考纲 集群安装:10% 使…

数据库技术及应用小科普(附部分例题)

数据库的基础 介绍 (手机撰写,多有不便,求铁铁们多多包涵)图书目录部分期末习题 介绍 (手机撰写,多有不便,求铁铁们多多包涵) 内容简介 《数据库技术及应用教程》系统地介绍了数据库…

【每日挠头算法题(5)】重新格式化字符串|压缩字符串

欢迎~ 一、重新格式化字符串思路1:构造模拟具体代码如下: 思路2:双指针法具体代码如下: 二、字符串压缩思路1:简单替换 总结 一、重新格式化字符串 点我直达~ 思路1:构造模拟 1.遍历字符串,…

iOS横竖屏切换

基础概念UIDeviceOrientationUIInterfaceOrientationUIInterfaceOrientationMaskUIViewController相关AppDelegate相关工程配置相关 横竖屏切换实例竖屏界面如何present横屏界面竖屏界面如何push横屏界面横屏竖切换机制分析系统如何知道App对界面朝向的支持不同界面的朝向控制自…

Qt学习06:QPainter绘画

文章首发于我的个人博客:欢迎大佬们来逛逛 Qt学习06:QPainter绘画 Qt绘图 Paint System Qt的绘制系统支持在屏幕和打印设备上使用相同的API进行绘制,主要基于QPainter、QPaintDevice和QPaintEngine类。 QPainter用于执行绘图操作&#xff…

JAVA基础 - SPI机制使用详解(三)

简述 SPI(Service Provider Interface的缩写) 意思是:“服务提供者的接口”,专门提供给服务提供者或者扩展框架功能的开发者去使用的接口。SPI 将服务接口和服务实现分离开来,将服务调用方和服务实现方进行解耦&#…

Rocketmq面试(四)RocketMQ 的推模式和拉模式有什么区别?

一、PUSH模式 public class Consumer {public static void main(String[] args) throws InterruptedException, MQClientException {// 初始化consumer,并设置consumer group nameDefaultMQPushConsumer consumer new DefaultMQPushConsumer("please_rename_…

基于STM32的重力感应售货机系统设计

一、项目介绍 随着智能物联网技术的不断发展,人们的生活方式和消费习惯也正在发生改变。如今越来越多的人习惯于在线购物、自助购物等新型消费模式,因此智能零售自助柜应运而生。 本项目设计开发一款基于STM32主控芯片的智能零售自助柜,通过…

哪吒汽车,莫做“普信男”

作者 | 魏启扬 来源 | 洞见新研社 今年初,哪吒汽车创始人方运舟和张勇联合发表新年致辞,文末总结说 “2023-2025年,必将是一场艰难的挑战,也是哪吒汽车的生死存亡之战。” 哪吒汽车或许过于敏感了,就今年以来的市场表…

Tensorflow两步安装(超简单)

一、查看python版本,下载对应tensorflow文件 1.Anaconda已安装,找到Anaconda3文件夹,双击打开anaconda prompt,输入python,查看python版本 可以看到我的版本是3.9的 2.进入下面的网站,选择你需要的cpu或g…

【appium】appium自动化入门之API(下)——两万字API长文,建议收藏

目录 Appium API 前言 1.contexts (返回当前会话中的上下文,使用后可以识别 H5 页面的控件) 2.current_context (返回当前会话的当前上下文 ) 3. context (返回当前会话的当前上下文) 4.find_e…

Django-搭建sysinfo获取系统信息

文章目录 前言一、项目搭建二、主机信息监控三、Celery定时任务和异步任务 前言 本篇基于:https://github.com/hypersport/sysinfo#readme 使用Django,搭建sysinfo,Linux中,sysinfo是用来获取系统相关信息的结构体 一、项目搭建 &#xff0…

CV方向如何找到适合自己的研究创新点?

做CV的论文创新的一些思路与方向。分别是无事生非,后浪推前浪,推陈出新,出奇制胜。 无事生非 在原始的数据集上加一些噪声,例如随机遮挡,或者调整饱和度亮度什么的,主要是根据具体的任务来增加噪声或扰动&a…

大模型LLM-微调经验分享总结

模型越大对显卡的要求越高,目前主流对大模型进行微调方法有三种:Freeze方法、P-Tuning方法和Lora方法。笔者也通过这三种方法,在信息抽取任务上,对ChatGLM-6B大模型进行模型微调。liucongg/ChatGLM-Finetuning: 基于ChatGLM-6B模型…

I/O设备详解

目录 一. 什么是IO设备 二. IO设备分类 2.1按照使用特性分类 2.2按照传输速率分配 2.3按照信息交换的单位分类 三. IO设备的构成 3.1 IO的机械部件 3.2 IO的电子部件 3.2.1设备控制器(IO控制器功能简介) 3.2.2设备控制器(IO控制器&…

【C++】红黑树的模拟实现

文章目录 一、红黑树的概念二、红黑树的性质三、红黑树节点的定义四、红黑树结构五、红黑树的插入操作六、红黑树的调整1.叔叔存在且为红2.叔叔不存在或者存在且为黑3.插入完整代码4.总结 七、红黑树的验证八、红黑树的删除九、红黑树与AVL树的比较十、红黑树的应用十一、红黑树…

d2l_第四章学习_Softmax Regression

x.1 Classification 分类问题 x.1.1 Classification和Regression的区别 注意,广义上来讲,Classification/Softmax Regression 和 Linear Regression 都属于线性模型。但人们口语上更习惯用Classification表示Softmax Regression,而用Regres…

C++特殊类的设计与类型转换

特殊类的设计与类型转换 特殊类的设计请设计一个类,只能在堆上创建对象请设计一个类,只能在栈上创建对象请设计一个类,只能创建一个对象(单例模式) C的类型转换 特殊类的设计 请设计一个类,只能在堆上创建对象 通过new创建的类就…

Baumer工业相机堡盟工业相机如何使用BGAPISDK对两个万兆网相机进行硬件触发同步(C++)

Baumer工业相机堡盟工业相机如何使用BGAPISDK对两个万兆网相机进行硬件触发同步(C) Baumer工业相机Baumer工业相机BGAPISDK和触发同步的技术背景Baumer工业相机使用BGAPISDK进行双相机主从相机触发1.引用合适的类文件2.使用BGAPISDK设置主相机硬件触发从…

C++中内存泄漏,内存溢出区别

C/C中内存泄露和内存溢出的区别 注:泄露为没有释放内存,溢出为分配空间不够,数据溢出了 内存溢出(out of memory)是指程序在申请内存时,没有足够的内存空间供其使用。 内存泄漏(memory leak&…