AI大模型加持,生成式搜索来了!

news2024/11/18 5:26:31
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

最近有两件事,让搜索引擎重回聚光灯下。

百度发布“文心百中”,用AI大模型技术驱动的产业级搜索系统。构建企业内部搜索引擎的人力成本减少90%以上,同时只需要极低数据。

几乎同一时间,OpenAI最新发布聊天机器人ChatGPT,网友发现用它来寻找问题的答案虽然有时会出错,但直接得到完整回答的感觉要比从搜索中再去挑选爽快多了。

搜索引擎这个经典技术,就要迎来一轮变革了吗?

想当年,搜索引擎是PC互联网时代的流量入口,绝对的王者。

进入移动互联网时代后,虽然不再是最受关注的焦点,但搜索也仍旧是高频刚需,逐渐融入人们的日常生活。

当人们重新把目光看向搜索引擎,也会注意到它这些年并没有停止进化。

搜索变了

过去一提到搜索,肯定离不开关键词。前几届世界杯时,人们更习惯于搜“世界杯 直播地址”,关键词之间用空格隔开。

就好像把所有网页当成一个大文档,用类似Ctrl+F的方式去对关键词做匹配

随着手机、移动互联网的普及,人们的需求也在变化,现在更倾向于提出一个问题,并期待搜索引擎能直接给出回答

如搜索“世界杯直播在哪看?”,更口语化也更复杂,甚至一些时候就是语音转换出来的。

29cbaece4938941f252a16048a0329a0.jpeg

搜索引擎也在适应这种变化,给出的结果不再是单纯的页面排序。

针对一些问题,会给出对内容深入理解后的答案抽取

983f2a01b01502c6f3672d1f9ae55c8c.jpeg

有时会给出更直观、更容易跟着操作的视频内容

04e318970512507a4d7c00d173fb0682.png

甚至在理解需求的基础上出现配套的服务跳转

62857d2dc040e334ad682bfd4bf25733.jpeg

这些变化看起来并不复杂,背后却要有很多技术做支撑。

在这里要重点讲一下百度今年亮相的两项新技术,“知一”“千流”

先看跨模态大模型知一,AI技术在搜索场景落地的代表。

简单来说,知一大模型可以从全网形态各异的资源中持续学习,无论是文本、图片、视频还是结构化信息都可以融会贯通。

打破了资源形态的界限,就更容易理解用户的搜索需求。

从技术层面讲,知一使用了百度文心大模型技术。大规模预训练技术提升模型性能,蒸馏压缩率高达99%的模型小型化技术以降低成本,得以在搜索场景全面应用。

据了解,目前知一在百度搜索的各场景中每天要进行上万亿次的推理。如此巨大的使用规模又带来新的问题,如何把满足需求的结果高效呈现给用户。

这就要提到新一代索引技术千流,负责把不同维度的信息进行智能有序的组织。

千流与之前的索引技术相比,主打多领域、多维度表达的立体栅格化索引。

如何理解栅格化?

在过去,搜索引擎为提高效率会把内容按质量横向分层。先从高质量内容开始检索,满足需求就可以及时返回结果,还未满足再进入下一层。

如今,在千流中又把质量最高的一批内容按领域垂直分层。质量分层+内容命中结合,一横一纵把内容切分成栅格按需检索,大大减少每次检索的计算量。

cfbc64c5fe6e087d0458e2ac093b6941.png

百度工程师透露,这样节省下的计算量也没有闲着,而是对内容进行精耕细作,用不同的算法从多维度提高索引的质量。

还有一个额外好处,在不同栅格之间可以应用个性化算法。就好比“一鱼多吃”,不同的部分使用不同的烹饪方法。

知一和千流配合起来,整个系统还会根据模型最新学习到的知识,进行实时动态调整,确保最优检索效果。最大程度避免无效计算,最终把满足需求的结果高效呈现给用户。

这些新技术,在实际业务中是否起到了效果呢?

答案或许可以从数据中找。

反馈驱动创新

9月份举办的万象·百度移动生态大会,百度指出,过去一年,百度搜索规模逆势增长17%

最新的百度第三季度财报也显示,移动端搜索查询次数同比实现两位数的增长。

百度集团资深副总裁、百度移动生态事业群组(MEG)总经理何俊杰指出,其中的关键是“反馈驱动创新”

一方面反馈来自智能搜索。百度搜索每天响应来自100多个国家、几十亿次的搜索请求。

另一方面则来自智能推荐。2022年第三季度百度App信息流内容分发量同比增长23%,其中的用户点赞、评论、分享也都是用户最直接的反馈。

用户的高频需求,驱动着AI技术变革。新技术又能激发新用户需求表达,两者构成“双轮驱动”,持续推动搜索进化。

c7404588b2136cadc00fbc9ce623435a.png

比如虚拟人技术加持下,可以实现交互式对话,单纯的搜索之外又有了聊天、陪伴需求。

d3f7fcbea14870b244c0e2af5078779d.jpeg

正如百度研究院在年初的十大科技趋势中所预测的,AIGC(AI Generated Content,人工智能生成内容)在今年大放异彩。

未来AIGC继续与搜索深度结合,还将带来“搜索即生成”甚至“搜索即创造”。

不会再有“抱歉,没有找到相关的网页,请检查您的输入是否正确”,而是用户点下搜索按钮的一瞬间,本不存在的内容由AI即时创造出来。

百度CEO李彦宏前段时间也说过:

随着技术的突破,AI作画、AI视频、甚至AI构建一个虚拟世界可能都会像手机拍照一样简单。

而一切技术的突破和创新,都离不开人才。

为了更好推动技术和算法创新、促进产学研交流、培养人才,百度举办了首届搜索技术创新挑战赛。

大赛提供30万元总奖金池、提供英伟达A100算力资源,更是有机会接触到百度海量搜索业务的脱敏数据。

717ca39df4cf574dfe5a528c3de7c316.png

本届大赛分为两个赛道:‍

搜索问答,旨在探索开放领域搜索场景。面对网页文档质量参差不齐、长短不一,问题答案分布零散、长度较长等问题,希望参赛者能进一步提升深度智能问答效果,给用户提供更好的搜索体验。

搜索模型推理优化,对于保障亿万用户流畅的搜索体验、控制算力成本开销至关重要。希望参赛者通过各种优化技术,挑战最优的模型推理性能。

大赛期间,百度还提供了丰富的相关课程和学习资料,搜索技术与GPU加速计算专家也将提供全程的技术辅导。

本次大赛对全社会开放,消息一出立即吸引了大量高校学生、企业团队或个人开发者,目前已有1500+队伍报名参加,成为搜索技术领域一次盛会。

大赛地址:
https://sti.baidu.com

—  —

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/82622.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

算法---DFS和BFS

一 : 什么是DFS和BFS? 转载自 : 什么是DFS和BFS? 简介: 深度优先遍历(Depth First Search, 简称 DFS) 与广度优先遍历(Breath First Search)是图论中两种非常重要的算法,生产上广泛用于拓扑排序&#xf…

软考高级信息系统项目管理师如何备考?

从以下两个方面: 1.首先分析一下高项考试的各个科目; 2.如何备考高项? 高项考试有三个科目: 综合知识,案例分析,和论文。 一、综合知识 信息系统项目管理师上午综合知识科目范围广,知识点非…

【差分进化算法】基于适应度-距离-平衡的自适应引导差分进化 (FDB-AGDE) 算法附matlab代码

​✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。 🍎个人主页:Matlab科研工作室 🍊个人信条:格物致知。 更多Matlab仿真内容点击👇 智能优化算法…

java工作流开源框架可以提高工作效率吗?

要想回答这个问题,就需要了解什么是java工作流开源框架,以及java工作流开源框架的主要特点是什么。随着大数据时代的拓展发展,低代码开发平台已经在数字化管理时代中深受欢迎,是做好数据管理和提升企业数字化发展步伐的重要工具。…

医疗机构 IT 管理员保护患者数据和隐私的 3 项必做之事

自疫情开始以来,医疗机构的信息存储与管理正面临着巨大的考验。患者的健康史,包括所有治疗、程序、处方、实验室测试和扫描报告,都以电子健康记录 (EHR) 的形式存储。尽管 EHR 更能提高患者病例的准确性,并帮助医生跟踪患者的医疗…

网络三层交换机部署实验

♥️作者:小刘在C站 ♥️每天分享云计算网络运维课堂笔记,疫情之下,你我素未谋面,但你一定要平平安安,一 起努力,共赴美好人生! ♥️夕阳下,是最美的,绽放,愿…

排查cpu飚高问题-两种方案

cpu 飚高原因 频繁创建线程 线程内进行频繁计算 模拟代码 SpringBootApplicationEnableSchedulingpublic class CrawlBigDataApplication {public static void main(String[] args) { /*19*/ SpringApplication.run(CrawlBigDataApplication.class, (String[])args)…

【并发编程】Atomic类

一、介绍 在java.util.concurrent.atomic包下atomic一般指原子操作类,主要分为四种类型的原子更新类:原子更新基本类型、原子更新数组类型、原子更新引用和原子更新属性。 二、简单使用 1.AtomicInteger 通过synchronized关键字来保证原子性&#xf…

社交平台数据提取:Social Phone Extractor

Social Phone Extractor是一个功能强大且创新的程序,能够搜索和扫描在 Google / Bing / Yahoo 中索引并与最重要的社交网络(如 Linkedin、Facebook、Twitter 和 Instagram)相关的个人资料、帖子和文章的页面,然后捕获和推断&#…

ChatGPT介绍世界杯历史与编写足球游戏python程序

ChatGPT聊天机器人最近非常流行,是由OpenAI于本月发布的。花了一点时间注册了一个账号,如有需要帮助注册的可以随时与我交流。注册过程相对有一些复杂。 除了常规的聊天对话功能之外,ChatGPT聊天机器具备强大的文本生成能力,例如博…

【Android】Broadcast广播的使用

一、广播机制概述 通常情况下在学校的每个教室都会装有一个喇叭,这些喇叭是接入到学校广播室的。如果有重要通知,会发送一条广播来告知全校师生。为了便于发送和接收系统级别的消息通知,Android系统也引入了一套类似广播的消息机制。 Android…

股票撤单委托接口是如何操作的?

在交易的过程中&#xff0c;要先通过股票撤单委托接口获取委托单列表的数据&#xff0c;才可以进行撤单的操作&#xff0c;部分的数据会作为参数传递给撤单函数&#xff0c;下面来具体看看股票撤单委托接口是如何操作的&#xff1f; std::cout << " 撤单委托 \n&qu…

025_SSS_BeLFusion: Latent Diffusion for Behavior-Driven Human Motion Prediction

BeLFusion: Latent Diffusion for Behavior-Driven Human Motion Prediction 本文关注的问题是human motion prediction&#xff08;HMP&#xff09;&#xff0c;也就是在给定观测到的人体运动的前提下&#xff0c;预测人体的后续运动。本文的思路是&#xff0c;将人的behavio…

Linux文件服务NFS共享存储服务

作者简介&#xff1a;一名99年软件运维应届毕业生&#xff0c;正在自学云计算课程。宣言&#xff1a;人生就是B&#xff08;birth&#xff09;和D&#xff08;death&#xff09;之间的C&#xff08;choise&#xff09;&#xff0c;做好每一个选择。创作不易&#xff0c;动动小手…

高视医疗在港交所上市:IPO首日跌破发行价,高铁塔为控股股东

12月12日&#xff0c;高视医疗&#xff08;HK:02407&#xff09;在港交所上市。本次上市&#xff0c;高视医疗的发行价确定为每股发售股份51.40港元。据此计算&#xff0c;高视医疗预计募资约6.72亿港元。而招股书则显示&#xff0c;该公司预计募资净额约为2.83亿港元&#xff…

java 剑指 Offer 57 - II. 和为s的连续正数序列

题目所属分类 双指针的做法 O&#xff08;n)的时间复杂度 同时末尾有List<int[]> res 这种的转化成二位数组 原题链接 输入一个正整数 target &#xff0c;输出所有和为 target 的连续正整数序列&#xff08;至少含有两个数&#xff09;。 序列内的数字由小到大排列&…

Spring Boot自定义starters

一、简介 SpringBoot 最强大的功能就是把我们常用的场景抽取成了一个个starter&#xff08;场景 启动器&#xff09;&#xff0c;我们通过引入springboot 为我提供的这些场景启动器&#xff0c;我们再进行 少量的配置就能使用相应的功能。即使是这样&#xff0c;springboot也不…

R语言绘制复杂抽样设计数据cox回归生存曲线(Kaplan-Meier)

上期咱们已经介绍了咱们绘制复杂抽样设计数据的基础图形&#xff0c;今天咱们来介绍一下咱们绘制复杂抽样设计cox回归生存曲线(Kaplan-Meier)。 废话不多说咱们先导入数据和R包 library(survey) pbc<-read.csv("E:/r/test/pbc.csv",sep,,headerTRUE) 这是一个原…

web前端-javascript-prototype原型(说明,访问,优势,判断是否含有一个属性,原型对象的原型)

prototype 原型 1. 原型介绍 function Person() {} function MyClass() {}//向MyClass中添加属性a MyClass.prototype.a 123;//向MyClass的原型中添加一个方法 MyClass.prototype.sayHello function () {alert("hello"); };var mc new MyClass(); var mc2 new …

使用VUE自定义组件封装数据字典实战

背景 照惯例&#xff0c;先交待下背景&#xff0c;从真实需求出发&#xff0c;讲述设计思路和实现方式。 软件系统中&#xff0c;会有一些成组的常量值&#xff0c;来描述业务实体的属性&#xff0c;如性别、证件类型、审批状态等。我们通常称之为数据字典&#xff0c;作为系统…