百度AI,和“吴文俊奖”同行的十二年、千丈山、万里路

news2025/2/26 22:27:55

15f6f26414197af9804bcfdbd34a29b8.jpeg

今天,AI正作为一个科技发展周期的轴心,成为万众瞩目的焦点。与历史上数次技术革命和AI浪潮所不同的是,这次AI的全球领先阵营里,有了中国的身影。

从一个学术灵感,到一项全球领先的专利技术,从一篇顶会论文到一个宏大的AI产业布局,中国AI的量变和质变,凝结了无数人扎根在泥土中一步一个脚印的寸进。

5月6日,第十二届吴文俊人工智能科学技术奖颁奖典礼正式举办。其中,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰带领团队完成的“知识与深度学习融合的通用对话技术及应用”成果,荣获“2022年度吴文俊人工智能科技进步奖特等奖”,这也是“吴文俊奖”首次评出特等奖。

6a42560ccebccdb5f14713726d4191ee.png

这一个特殊的时刻,承载了一个“中国人工智能最高奖”、一个中国AI科学家、一个中国AI科技企业的十二年光阴。

如果大家对中国AI如何一步步前行而感到好奇,那么这个奖项正好是机会,可以看到一个人和一家企业,究竟是如何征服山岭的。

敢登千丈山

和“吴文俊奖”同行的百度攀山路

6c513fadb1ec1fb492e956c8fcc24f04.png

这两天,大家一定看到了很多“吴文俊奖”的消息。

将时间退回到2011年,中国人工智能学会刚刚发起“吴文俊人工智能科学技术奖”的那一天,绝大多数人都无法想象,中国AI能有这样的盛况。

十二年,对于“吴文俊奖”,以及百度和王海峰,都是一条值得感慨的时间旅程。

十二年前,刚刚发起的“吴文俊奖”规模尚小,第一届只颁出了五个奖项,获奖者大多来自北京邮电大学、中科院自动化所等高校院所。十二年来,该奖先后授予了两百多个单位和行业机构,以及七百多位专家学者,见证了中国AI学术力量和产业力量的崛起。

这个中国AI酝酿量变的过程,百度的身影一直都在。

早在2010年,大部分人对AI的想象,还跟科幻电影一样,觉得非常遥远、看不懂的时候,百度已经开始积累AI技术。2010年,王海峰加入百度,推动NLP、知识图谱、深度学习等AI技术进入新的应用空间。

百度技术进入了新的阶段,一系列AI布局接连启动。比如2010年成立的百度自然语言处理部(NLP),是百度历史最悠久的基础技术部门之一;2013年,百度深度学习研究院(IDL)成立,是中国产业界最早触摸深度学习技术的机构之一。随后百度又相继打造了大数据实验室BDL、硅谷人工智能实验室SVAIL、百度研究院等研究机构。

正是与AI的结缘够早、够深,百度才能在人工智能领域达成全面领先,第一个看到未知的远处风景。

64f794dc40680c872dc64eefc5d09c31.png

王海峰,作为推动AI产学研融合的一面旗帜,是“吴文俊奖”十二年历史中,首个“吴文俊人工智能杰出贡献奖”的获得者。

王海峰团队的“知识与深度学习融合的通用对话技术及应用”,则拿下了吴文俊人工智能科技进步奖首个特等奖。

从中,我们也可以看到,“吴文俊奖”究竟在嘉奖什么。

能够让代表中国人工智能领域最高荣誉的“吴文俊奖”,打破常规,因为百度AI不断深入技术无人区,主动探索那些未被发觉的地带。

以此次获“特等奖”的 “知识与深度学习融合的通用对话技术及应用”为例,这一研究项目解决了该领域的四方面技术难题:

提出了基于知识统一表示的通用对话管理技术,解决了对话不连贯的难题;提出了融合知识的流式对话语音识别技术,解决了对话听不清的难题;提出了知识增强的通用对话理解技术,解决了理解不准确的难题;提出了基于隐变量与知识的对话生成技术,解决了回复有错误的难题。

王海峰在发表获奖感言时提到:“通用对话技术是人工智能领域最具挑战性的方向之一,也被认为是通用人工智能的必备能力。团队多年来持续在技术上探索和创新,突破了知识与深度学习融合的通用对话技术,目前已广泛应用于各行各业和人们生产生活中。”

敢登千尺山的百度,最终和“吴文俊奖”一起,见证中国AI一路走来,和世界顶峰相见。

f7ffde827f1d85d819eae90589308fb0.png

深耕AI路

夯实底层技术,长出文心一言

对于首个吴文俊人工智能科技进步奖特等奖,院士专家给出了这样的评语,“整体技术指标与应用效果达到国际领先水平,极大地提升了我国在这一领域的科技竞争力和产业影响力”。

不难看到,学术高度与产业广度,是百度获奖研究项目的两大特点。

据了解,百度的通用对话技术已经获授权发明专利82项,发表高水平论文36篇,在国际权威评测中获得了11项世界冠军。同时,其也实现了大规模的产业应用,基于小度等业务,支持了5亿智能设备的对话能力提升,服务了超过10亿用户,其应用领域覆盖通信、金融、汽车、能源等20多个行业。

如今,百度在通用对话技术上的积累和突破,也经由技术蓝图,流向了全新的领域。比如让全球瞩目的AI新贵:大语言模型。

很多人都认为,文心一言是全球第一个由科技大厂自研的大语言模型。它的出现让中国快速跻身全球LLM的第一梯队,为中国AI争取到了更大的战略空间,而文心一言的背后,就有成熟的通用对话技术作为支撑。

186e24c669f2631215287ca942caacde.png

对话增强是文心一言的核心技术特征之一,让文心一言具备更强的上下文理解、多轮对话能力,强化文心一言对话的完成度、连贯性、合理性,而对话增强,就是百度基于通用对话技术优势的再创新。百度提出了全球首个基于隐空间的生成式开放域对话大模型文心PLATO,不断提高模型的内容丰富性和连贯性。文心PLATO是百度研发的具有大规模参数的中英文对话预训练生成模型,经历多次升级,现已升级到百亿参数的文心PLATO版本。正是长期积累下来的通用对话技术,让文心一言具备了对话增强这个关键优势。

除了对话增强之外,文心一言还具备知识增强、检索增强等技术特点。

d7a255a8fe8e46fe737660207600da7b.png

在知识增强方面,得益于百度构建的5500亿事实的知识图谱,以及早在2019年3月就提出了知识增强的语义理解框架ERNIE,百度不断强化语义理解技术能力。

文心一言基于庞大的知识图谱来做知识增强,从海量数据和大规模知识中融合学习,还可以直接调用知识图谱做知识推理,自动构建提示,高效满足用户需求。

而检索增强也是基于百度已有的语义理解技术优势的创新。百度拥有世界上最大的中文搜索引擎,百度搜索已经发展到基于语义理解和匹配的新一代搜索架构,深入理解用户需求和网页内容,进行语义匹配,得到更精准的搜索结果,进而为大模型提供准确率高、时效性强的参考信息,更好地满足用户需求。

更值得一提的是,文心一言还在飞速成长中。

王海峰在一次采访中透露,在内测时,有员工疑惑,文心一言怎么写不好藏头诗,而当时文心一言还处于学习阶段,王海峰很有信心,说“差不多明后天就能学会了”,果然第二天文心一言就能写藏头诗了。王海峰说:“信心就是因为我们对系统的能力有比较准确的把握。”

最近,飞桨又专门针对文心一言做了专项优化,一个月内迭代了4次,推理性能提升10倍,其中业内首创的支持动态插入的分布式推理引擎,推理性能提升了123%。

可以说,文心一言的各个方面,都展现出了百度夯实底层技术,系统化积累技术优势的技术战略。显然,王海峰的技术视野与技术关怀,在其中扮演了关键角色。

技术攀登是一个非常漫长的过程,如果没有对于技术动能的持续补充,可能因为“体力不支”,而无法坚持到登顶的那一天。基于文心大模型 ERNIE 及对话大模型 PLATO的文心一言,能走的更远、更快,靠的正是百度AI技术的持久续航。

青山遮不住

百度AI,向产业冲锋

f8afea5d0650c4a384aadd9486ea7d40.png

从“训大模型”到“用大模型”,已经成为中国产学政各界这一波大语言模型浪潮的深层期待。

如何穿越AI与产业之间的无人区,走向千行百业,与社会更具深度地融合,是今天摆在科技企业面前的新挑战。

文心一言的技术核心,来自百度积累了十余年的四层架构:芯片、框架、模型、应用,这一整套技术体系,共同支撑文心一言向产业冲锋。

芯片层,百度有自研的量产AI芯片昆仑。同时,百度还跟硬件行业上下游建立了紧密的合作,与主流国内外芯片厂商进行了非常好的适配,所以任何一家有合适的AI算力,文心一言都能用得起来,这就保障了后续AI业务发展所需要的算力资源。

5d6de0e25bd0ab6095b1043a25625d71.png

框架层,百度自主研发的中国首个开源开放的产业级深度学习平台飞桨,支撑了大模型的灵活开发、高效训练和推理部署。

模型层,文心大模型 ERNIE 及对话大模型 PLATO等自研模型已经证明了,文心一言的核心技术都是掌握在中国企业手里。

应用层,百度已经打造并开放了200多项AI能力和应用,并在飞桨平台提供大量应用模型、开发者工具,以及定制化服务,帮助各行业更简单地将AI用起来。

这四层架构,合在一起,展现出百度AI布局的全面与长远,也成为文心一言持续向上攀爬的保障。

用王海峰的话说,有了百度独特的技术和积累,能给普通用户带来不一样的感受:一是效果更好,文心一言能记住上下文,给出更新的信息、更准确的知识;二是效率更高,模型推理效率提高,用户等待的时间更短了。

从中,我们能看到,百度AI在产业中鲜明的差异化特征:

1.向上,保持核心技术突破,勇于探索技术无人区,主动承担了全球范围内底层技术的突破任务,保持着中国AI与世界最前沿的并列或领先。

2.向下,做实AI基础设施,确保产业自主可控。大模型训练推理,需要芯片、框架、开发工具等一系列软硬件,核心基础设施不能掌握在自己手里,产业使用时就会有顾虑。百度在AI领域四层架构实现了全面的核心技术自研,解除AI产业化和产业AI化的后顾之忧。

3.向前,带头构建产业生态,打通大模型到产业的关隘。通过开源开放的飞桨生态,以及飞桨产业赋能中心,把AI技术沉淀下去、开放出去、让各行业都用起来,帮助更多人爬上AI这座高峰,看见路前方的风景。

2a2be638a3f98e8626f2a1fee3db3952.png

此时再回眺百度AI,会发现领先不是一个结果,而是由一个个技术脚印所串联起来的过程。这些过往凝结在一起,才有了我们熟悉的百度AI,与新生的文心一言。

获得“吴文俊奖”,顶峰之上的百度,正在攀登更高的山。大模型所开启的AI与产业融合之路,有如一片未知的土地,蕴藏着极大价值可能性,但也充满了变数,需要勇敢者先抵达彼端,一探究竟。

十二年弹指一瞬,走在科技前沿的百度,已踏上天地重开一境宽的新旅途。青山万丈,遮不断赤子的眼眸;雀喧鸠聚,挡不住行者的脚步。

423222e606e59418cad37f21465cb3dc.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/501083.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL基础(十)创建和管理表

1. 基础知识 1.1 一条数据存储的过程 存储数据是处理数据的第一步。只有正确地把数据存储起来,我们才能进行有效的处理和分析。否则,只能是一团乱麻,无从下手。 那么,怎样才能把用户各种经营相关的、纷繁复杂的数据&#xff0c…

关于如何对VS的C++项目进行完全重命名

很多人一个开始在VS编写C项目的时候,第一个项目名称都是系统默认名称或者HelloWorld这类的名字,一看就比较小白。 一段时间以后,项目已经进行了一段时间了,这时候想要对项目名称进行重命名。但是,偏偏VS的重命名功能做…

【homeassistant中ESPHome无法正常添加新设备指导操作】

【homeassistant中ESPHome无法正常添加新设备指导操作】 1. 在ESPHome添加设备1.1 问题显示1.2 添加NEW DEVICE1.3 烧录初始化固件2. 编辑主板的代码并录入3. 进行设备编译4. 编译完成后尝试亮灯5. ip地址的设置1. 在ESPHome添加设备 1.1 问题显示 点击添加设备,然后continu…

【网络】传输层协议-UDP协议

文章目录 传输层TCP/UDP预备知识:端口号的理解端口号的范围 关于端口号的相关问题netstat命令pidof命令 UDP协议所处的位置UDP协议格式UDP的特点UDP的缓冲区基于UDP的应用层协议 传输层TCP/UDP 回忆数据发送到网络的过程 之前在学习HTTP等应用层协议时为了方便理解:我们简单的认…

液晶显示控制驱动器HD61202介绍

液晶显示控制驱动器HD61202的特点 HD61202液晶显示控制驱动器是一种带有驱动输出的图形液晶显示控制器,它可直接与8位微处理器相连,它可与HD61203配合对液晶屏进行行、列驱动。HD61202是一种带有列驱动输出的液晶显示控制器,它可与行驱动器HD…

Docker 进阶实战:数据管理、网络

文章目录 Docker 进阶实战:数据管理、网络数据管理Volume创建数据卷挂载数据卷共享数据卷删除数据卷 Bind mountstmpfs mounts 网络端口映射容器互联Docker 内部网络Docker linkDocker Networking Docker 进阶实战:数据管理、网络 数据管理 默认情况下…

基于simulink使用麦克风阵列的声波束成形

一、前言 此示例演示如何对麦克风阵列接收到的信号进行波束化,以在嘈杂环境中提取所需的语音信号。 二、模型的结构 该模型模拟在 10 元件均匀线性麦克风阵列 (ULA) 上接收来自不同方向的三个音频信号。在接收器处添加热噪声后,应…

如何利用 Playwright 对已打开的浏览器进行爬虫!

大家好,我是安果! 之前写过一篇关于如何利用 Selenium 操作已经打开的浏览器进行爬虫的文章 如何利用 Selenium 对已打开的浏览器进行爬虫! 最近发现很多人都开始摒弃 Selenium,全面拥抱 Playwright 了,那如何利用 Pla…

经典文献阅读之--Point-LIO(鲁棒高带宽激光惯性里程计)

0. 简介 在我们之前接触的算法中,基本上都是要处理帧间雷达畸变的,类似于VSLAM系统,频率固定(例如10Hz), 而实际上,激光雷达点是按照不同的时间瞬间顺序采样的,将这些点累积到帧中会引入人工运动畸变&…

3_机器学习数学基础知识

文章目录 一、偏导数二、目标函数(损失函数)求解方法2.1 梯度下降法2.2 坐标轴下降法2.2.1 坐标轴下降法算法公式2.2.2 坐标轴下降法算法过程 2.3 坐标轴下降法和梯度下降法的区别 三、概率3.1 大数定律、中心极限定理3.2 最大似然函数3.3 概率知识3.3.1…

windows下python下载及安装

下载python安装包 进入python官网:https://www.python.org/ 鼠标移动到“Downloads”->"Windows"上,可以看到最新版本是3.11.3版本 点击“Windows”按钮,可以去下载其他版本 标记为embeddable package的表示嵌入式版本&#x…

MyBatis:使用到的代码整理

文章目录 MyBatis:Day 04框架1. 依赖:pom.xml2. 外部配置文件:db.properties3. 核心配置文件:mybatis-config.xml4. 工具类:MybatisUtils.java5. 实体类6. 接口:xxxMapper.java7. 实现类:xxxMap…

[数据库系统] 三、简单查询

目录 第1关:简单查询 1.检索数据表所有的元组 2.检索符合条件的元组 educoder 第2关:多表查询 1.笛卡尔积 2.等值连接 3.自然连接 4.左外连接和右外连接的表示方法及转换为SQL educode 第3关:集合操作 1.集合并操作 2.集合交操作…

小学生护眼用什么样的台灯比较好用一点?小学生护眼台灯排行榜

孩子近视了,很多家长认为是数码产品导致的。其实除了数码产品,灯光也是一个非常重要的原因。或许你认为卧室的灯亮孩子写作业就没有问题,其实这种情况仍会出现灯下黑的现象。如果你想孩子写作业不受灯光的影响,那么一定要给他们配…

实验四 数据库设计

【实验目的】 1、掌握规范化数据库设计包括步骤及其任务、方法、结果等。 2、掌握数据库设计过程中关键文档的写法。 3、了解数据库辅助设计工具。 【实验内容】 请按下面大纲书写实验报告(请自行附页)。 (1)需求分析&#…

【MySQL】Mysql索引失效场景(15个必知)

文章目录 背景数据库及索引准备创建表结构初始化数据数据库版本及执行计划 1、联合索引不满足最左匹配原则2、 使用了select *3 、索引列参与运算4、 索引列参使用了函数5、 错误的Like使用6、 类型隐式转换7、使用OR操作8、 两列做比较9、 不等于比较10、 is not null11、 not…

ChatGPT实现stackoverflow 解释

stackoverflow 解释 ChatGPT 公开服务以来,程序员们无疑是最早深入体验和"测试"的一批人。出色的效果也引发了一系列知识产权上的争议。著名的 stackoverflow 网站,就宣布禁止用户使用 ChatGPT 生成的内容来回答问题,一经发现&…

系统分析师之系统设计(十五)

目录 一、软件流程设计 1.1 业务流程分析方法 1.2 业务流程建模 1.2.1 标杆瞄准 1.2.2 IDEF 1.2.3 DEMO 1.2.4 流程建模语言 1.2.5 基于服务的BPM 1.2.6 业务流程重组BPR 1.2.7 业务流程管理BPM 二、软件架构设计 2.1 概念 2.2 软件架构风格 三、 结构化设计 四…

这样的应急科普,你爱了吗?

“当我给救援队叔叔系上红领巾的时候,我特别的自豪,很开心!” “救援队的叔叔、阿姨们都很伟大,我长大了,也想和他们一样。” “我爸爸就是一名救援队队员,我很崇拜他!” 敬少先队员礼&#…

高通 Android 8/9/12/13 兼容U盘识别extfat模式

Android本身不支持extfat格式 需要通过nofuse 打kernel补丁方式去实现 Android 8/9 1、kernel/msm-4.9/arch/arm64/configs/sdm670-perf_defconfig 增加代码如下(需要提交编译kernel记得git add sdm670-perf_defconfig 不需要commit哈!否则编译会还原…