最近颁发的“吴文俊奖”,见证了中国AI走向产业之路

news2024/10/6 16:30:46

45d58d825cf801117858f7b60c40851e.jpeg

“任何足够先进的技术,初看起来都与魔法无异”——这是著名科幻作家克拉克总结的第三定律。

今年以来ChatGPT掀起的智能交互变革,大语言模型的智能涌现能力,在很多人眼里,真的就像魔法一样。

当然,大家心知肚明,技术世界里哪有什么秘诀和魔法,还不是一行行代码、一个个日日夜夜、一次次的bug调优迭代,最终让技术创新像魔法一样出现,惊艳世人。

所以,在如火如荼“大炼模型”的时间节点上,比起技术的玄妙,我们更关心那些“高大上”的技术,究竟是如何被打磨出来的,又会怎样改变我们的生活与工作?

要弄懂这一点,就需要了解技术的真实进展与发展脉络。于是,我们想到了“吴文俊奖”。

如果你关注AI领域的硬核技术,一定对“吴文俊奖”不陌生。

1c9770796e4e13fe379663fae1f0ae62.png

2011年,中国人工智能学会发起设立的“吴文俊人工智能科学技术奖”,是我国智能科学技术领域唯一依托社会力量设立的科学技术奖,也被誉为“中国智能科技最高奖”。

十二年来,吴文俊奖激励着扎扎实实的个人、技术和项目,同时作为一扇窗口也展现着中国AI的发展方向和探索成果。

在“吴文俊奖”科技进步奖的名单中,我们看到了一个与类ChatGPT技术同出一源(NLP)、又独辟蹊径的项目——任务型智能对话交互关键技术及大规模产业应用,由京东的何晓冬博士团队研发。

58128d5ef90c4f6c974008ad8f601499.png

简单来说,这是一个由语言模型、图像生成、数字人等多种能力构成的技术群落,并实现了从学术界到产业界的落地。

如果我们想了解智能对话的“魔法”,以及正在真实发生的产业变局,这些具体而真实的场景、人、技术和创新,是一个非常好的切面。

登上吴奖奖台的技术

也是你我身边的“魔法”

3d387ce8c17286d4ccb021e1ed6d8a91.png

吴文俊人工智能科技进步奖是颁给底层技术的,而相比复杂艰深的学术名词、函数公式,普通读者更关心的是,这些底层技术究竟是怎样从吴奖奖台,来到你我身边,变成日常生活中的“AI魔法”的?

这一次,京东何晓冬博士团队,告诉了我们答案。

在访谈现场播放了一段枸杞带货的视频,视频中人物的形象、脚本、语音和动作全部都是AI生成的。

这种高真人还原度的AI应用,正是基于获得吴文俊奖的京东云智能交互技术体系打造的。

何晓冬博士透露,京东一直持续技术投入,在AI领域沉淀出的综合性应用平台就是“言犀”。

开放式闲聊,用户对技术的包容度很高,即便系统犯错,用户也可能会觉得有趣。但在言犀面对的任务型对话场景中,用户都会带着解决复杂问题的明确目的。以应用最广的零售场景为例,他们需要智能客服精准解答售前咨询、退换货、配送等各环节的问题,这时候系统犯错,就是“火上浇油”。

所以,“言犀”的语音生成、情绪感知、多轮对话决策推理等核心技术,必须满足真实场景的严苛需求。

777319f14ad0eb8c855b3a4c06d8bb41.jpeg

(京东云“数字人”)

为此,京东云在技术上进行了大量创新:

1. 知识指导的多模态可控对话生成。就拿数字人直播来说,要还原真人的表现力,做到惟妙惟肖的语气、口音,对技术的先进性要求很高。京东云言犀团队提出了多颗粒度韵律增强的语音合成技术,提高语音的韵律丰富度和可控性。同时,提出了知识融合的预训练语言模型和多模态可控对话文本生成模型,提升生成文本的专业度丰富度。这样,一个AI科学家也能在数字世界里,一秒化身“养生专家”,头头是道地提供相关领域知识。

2. 极简条件下智能行为感知与数字外观重建。说实话,数字人带货的视频很难分辨出是AIGC,其中一个原因就是生成的动作自然、合理,“不像假的,再看看”。这源于言犀团队与清华大学等一起提出的一系列高精度人体外观感知与重建方法,达到国际领先水平,算法效率提升了1个数量级,可以在极简条件下进行人体重构,应用于数字人交互服务场景。

3. 多轮对话决策推理。在实际场景中,数字人主播可以跟真人消费者进行复杂的互动和讲解,那么问题来了,现实中的人会有口语化、不规律停顿等情况,如果AI在用户思考的时候就盲目打断,把对话接过来,很可能让用户不高兴,这就不够智能了。何晓冬博士介绍到,智能对话的本质是决策,AI要能够以毫秒为单位,进行综合性、多模态的判断,然后决定什么时候切进去、什么时候继续等待。针对人/机话语权决策等问题,言犀团队提出了多轮对话决策推理等技术,打造了国际领先的解决方案,此前还曾获得国际竞赛Wikihop、HotpotQA冠军。

登上吴文俊奖领奖台的“技术魔法”,背后是一件件源于扎实应用场景,具体而真实的创新,也在2022年7月通过了中国人工智能学会组织的科技成果鉴定,组委会做出了“该项目技术复杂,研制难度大,创新性强,项目成果整体处于国际先进水平”的评价。

37d144f0ed02361b86effd91985419d3.png

京东魔术师

一群AI人的“侧写”

在访谈现场,我们见到了言犀团队的多位成员,一番对话后,我愿称他们为——京东“魔术师天团”。

为什么这么说?其实,在国际赛事上刷榜的国内团队很多,但能让技术真正创造产业价值与社会效益的团队,真是凤毛麟角。

在吴文俊奖的最终答辩环节,面对院士专家组成的评审团,何晓冬博士分享了一个现实案例:去年北京市有2600万通“96010”电话,是借助言犀的人工智能对话技术打出去的。而这些工作,如果没有用AI,需要1万名社区人员不停地打好几个月。

技术成果的规模化应用,产生了重大的经济和社会效益,也是评委们认可的要点。

debb088d61f4b15be83c6cda00917b3a.jpeg

这种将技术价值与产业价值“合二为一”的能力,正是源自京东云言犀团队的全员“魔术师”,看似神奇的成果背后,是日复一日的苦练钻研,以及想用技术创新推动产业跃迁那份心意,最终点亮了AI魔法。

 “学术”与“产业”是“两层皮”,这个问题一直困扰着全球学术界和工业界的众多研究者。即学术成果和落地应用之间,很难达到一体化,要么学术成果难以落地,要么落地之后效果不好,成了“买家秀”和“卖家秀”的区别。但在京东,好像这个问题并不存在。

我们访问了几位团队成员,从他们口中找到了技术的产业落地“之所以是京东”的答案。

1.严谨态度。技术创新必须经由实践效果的检验。何晓冬博士透露,今年言犀要发布一个千亿级大模型,但内部非常严肃看待这次技术革命,做大模型不是为了好玩,也不是发个产品就可以了,而要在京东核心关键的场景上有比较好的实践效果后,才能让合作伙伴落地使用。

2.深入业务。吴友政博士在自然语言处理、人机对话、语音识别、机器翻译等前沿技术研究和产品研发方面成果斐然,他介绍到,京东云言犀团队做的很多技术攻关,目标就是解决京东复杂的、真实的、大规模场景中的问题,要求算法同学们都要深入业务,而不是在实验室做模型。所以,2018年产业互联网还没有那么火热的时候,言犀就已经在B端智能领域进行了探索,了解每个业务的痛点,和业务同学梳理出真正的问题是什么,用最终的业务指标去衡量技术先进性。

3.拥抱用户。在交流中,几位技术人员都提到了一个“人”——用户。

语音合成领域的张政臣博士说,技术攻坚中最大的困难,就是用户明显感觉到“你这个技术不行啊”,最开心的时候,是听到大家说,“我跟何博士很熟,刚才那段生成对话居然没有听出来”。

陈蒙博士负责人机对话,最典型的落地场景就是智能客服,京东零售有几千个品类,每个店铺卖的东西不一样,智能客服要针对不同品类来回答用户的售前售后问题,陈蒙博士说:“实际应用时,不是每家企业都有GPU卡,还要考虑不增加企业的成本,还能有比较好的初始效果,这就要求我们提高模型的泛化能力。”

语音识别方向的范璐博士,一个核心任务就是理解用户说话的情绪,来理解客户到底在什么阶段有什么需求,从而做出更准确的决策判断,来提供更好的服务。他直言:“做技术的人要理解用户的问题,去找解决问题的锤子,而不是拿着锤子找钉子……当用户反馈说,我们的一些产品真的帮助到了他,感到了关怀和温暖,我感觉加过的班都值了。”

魔术师的帽子里,有抽不尽的彩带,飞翔的白鸽,只为了让观众惊艳、笑出声来。对于用户来说,京东云的技术人员,正是在产业里制造神奇的魔术师,让艰涩的技术和枯燥的代码,转变成产业应用的繁花似锦、用户指尖的灵机一现。

产业AI

一个关乎中国的远大前程

29ec92a32146ab60f4c9913592ba9753.png

狄更斯在《远大前程》中,展现了时代轰然向前对个人的成长和经历,会产生巨大影响。这与我们当下所处的时代变迁,何其相似?

今年以来,交互方式的变革,让绝大多数人都感受到了人工智能汹涌澎湃的力量。没有人会怀疑,智能技术正在快速重构一切,关乎一个人、一家企业乃至一个国家的远大前程。

何晓冬博士坦言,AI正在带来新的生产力,帮助商业效率进一步提升。

而在这个确定的未来中,一家企业需要具备怎样的基础能力?

何晓冬博士觉得,答案是“产业AI”。

何晓冬博士很清楚,一项新技术要从学术界抵达产业,真正发挥效用,中间存在无数限制和困局。

他说:“人的终极三问——我是谁,从哪来,要到哪去,放在AI这就是要思考,智能是什么,智能的脉络和智能体能为现实世界带来什么。”科学家做研究,解决第一个问题很容易,造出一个“智能机器”,但落地到物理世界的时候,未必能解决每个具体场景和从业者的痛点。何晓冬博士说到:“我最近五年在京东做‘产业AI’,觉得这个路子是值得持续挖掘的,技术能深入到社会和经济领域,真正减轻客服等工作人员的负担,提高生产效率。”

6e7316a1ce72202be126045ec498ff14.jpeg

这五年,也是京东云成长的五年,已经探索出了一条产业AI的路线图:

以技术为起点,建立完善可用的技术底座。

一方面,解耦京东技术与服务能力,京东云将数智供应链场景中成长出的AI能力,服务千行百业。此外,始终抢先布局,针对大模型等新技术一直在布局,比如百亿级模型Vega,在全球机器翻译比赛上获得了多个第一名,体现了京东在大模型方面的技术积累和技术实力。

以产业为终点,服务传统实体行业。

何晓冬博士提到,技术落地最大的困难就是,很多科学家觉得有价值的事情,对行业来说没有解决内部痛点。自己前20年做技术,能消除学术和产业的鸿沟,是他加入京东后非常欣慰的事。

比如对消费者来和对用户来说,直接使用智能交互技术,是很难的,而京东凭借自身零售、物流、产销等业务能力,可以将整个业务系统串联起来,同时将京东内部实践锤炼出的AI能力,进行成本、效率、体验的再优化,然后对外赋能。

言犀智能人机交互平台,就是技术规模化赋能实体行业的载体,整合了过往产业实践和技术积累,在每天上千万人次多轮对话交互服务中持续迭代,产业服务能力突出。

比如政务领域,京东云将言犀的新一代人机协同技术全面注入政务热线服务,帮助东莞12345热线,进行了智能化升级。东莞12345热线2022年全年话务受理量从270万通升至581万通,在工单自动转写、精准派单、智能知识库联想等能力的加持下,接通率由40%升至超90%,等候时长由80秒压至30秒,工单平均办理时长由12.6天压至4.3天,满意率升至96.8%。在保定,借助京东云的对话分析技术,保定12345实时预警研判出多起覆盖升学、食品安全、营商环境等方面潜在群体事件……

4afecc081b7f832656327f400a4a3044.png

企业服务领域,直播已经成为各大企业触达潜在消费者、扩展品牌知名度的重要渠道,某头部3C品牌就借助言犀数字人产品,定制了自己的IP形象,实现了非真人时间段的快速开播。目前,数字人主播的每日成交金额最高达到真人主播的2.3倍,每小时成交金额占真人45%,但成本不到真人的十分之一,帮助品牌服务好消费者,同时降本增效。

AI的技术起点与产业终点之间,需要深度应用、不断打磨,京东云有一群将AI学术与产业紧密结合的技术人,愿意深耕每一片产业热土。

不断聆听来自产业和用户的声音,彻底改变那些沉淀已久的顽疴,这是京东云能持续让技术在产业领域中产生价值的重要原因。

今天,AI+产业已经上升为国家战略和社会的共同期待,但想让AI真正为行业带来价值,惠及千家万户,仅仅有宏大的愿景与美好的希冀远远不够,将学术圣殿与产业土壤链接到一起,才有完整的“产业AI”,才能回答人生的“终极三问”。

从京东云言犀团队的奖杯里,我们可以读到产业AI的春华秋实,理解技术走向物理世界的因果。

每一个神奇时刻的背后,其实没有“银弹”,没有奇迹,只有踏踏实实深入AI世界深处的人与故事。

6db9fc99df50f13611871ab2839070b3.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/512904.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

环评制图丨最新导则下的生态系统、土地利用、植被覆盖、适宜生境分布图等制图

根据最新生态环境影响评价导则,结合生态环评内容庞杂、综合性强的特点,以既包括陆域、又包括水域的项目为主要案例,对生态环评的具体流程及所需内容进行系统阐述。利用Rstudio、Fragstats等软件分析计算生态环评中所需各种指数,利…

python计算分类模型的评价指标

目录 1、混淆矩阵 2、代码实现 2.1、OA 2.2、AA 2.3、kappa 2.4、用户精度(User Accuracy, UA) 2.5、生产者精度(Producer Accuracy, PA) 2.6、f1_score 2.7、混淆矩阵 2.8、分类报告 1、混淆矩阵 以二分类问题为例,混淆矩阵表现形式如下: T…

Linux系统下的文件操作

目录 一、文件理解 二、系统级的文件操作 1、打开open 2、关闭close 3、写入write 4、读取read 三、文件描述符 四、重定向 1、dup2函数 2、追加重定向 3、输入重定向 五、缓冲区 1、缓冲区存在的意义 2、缓冲区的刷新策略 一、文件理解 在Linux中,有…

Linux多线程(2)线程安全(同步与互斥)

1.线程安全 概念 在多线程程序中,涉及到了对共享资源的操作,则有可能导致数据的二义性,而线程安全指的是,就算对共享资源进行操作也不会导致数据二义。 总结:多线程中对共享资源的操作不会出现问题。 实现:…

【AUTOSA】

目录 一、概述 二、限制与约束 三、功能描述 3.1 网络通信模式请求的转换 3.2 当前网络通信方式的输出 3.3 外围设备的控制 3.3.1 以太网接口控制器 3.4 多网络 3.5 网络模式状态机 3.5.1 初始化 3.5.2 在亚状态ETHSM_STATE_OFFLINE中的行为 3.5.3 子状态ETHSM_STA…

深入学习MYSQL-数据操纵及视图

前言 本博客中的例子和文字大部分来源于书籍《mysql必会知识》,后续会根据更多的书籍不断完善此笔记。 插入操作 可以这种方式向数据库插入两条数据,mysql和pg都支持这种写法。在实战中我们应该更多的使用这种写法,因为数据库的批量操作会…

TCP之滑动窗口和流量控制

TCP 利用发送字节数和接收字节数,这个二元组的唯一性保证顺序。讨论下保证顺序的具体算法,以及如何在保证顺序的基础上,同时追求更高的吞吐量。——TCP 的滑动窗口算法。 TCP 作为一个传输层协议,最核心的能力是传输。传输需要保证…

前端CSS学习(一)

1、基础认知 CSS概述&#xff1a;CSS:层叠样式表(Cascading style sheets)CSS作用是给页面中的HTML标签设置样式&#xff0c;起到美化修饰网页的作用CSS语法规则&#xff1a;CsS写在style标签中&#xff0c;style标签一般写在head标签里面&#xff0c; title 标签下面<!DOC…

AI类软件项目的应用场景

AI类的APP可以做很多事情&#xff0c;现在在很多业行都有具体的应用&#xff0c;从语音识别、图像识别到智能客服等都是不错的应用方向&#xff0c;在AI项目的时候一定要注意用户隐私&#xff0c;否则可能会带来不少潜在的问题。今天和大家分享一下这方面的内容&#xff0c;希望…

Call for Papers丨第三届GLB@KDD‘23 Workshop

鉴于介绍新数据集和Benchmark研究往往需要不同于常规论文的评审标准&#xff0c;计算机视觉和自然语言处理领域&#xff0c;以及最近的NeurIPS会议&#xff0c;都有专门致力于建立新Benchmark数据集和任务的Conference Track。然而在图机器学习领域&#xff0c;我们还没有类似的…

在 IDEA 中创建 Spring Boot 项目的方式(详细步骤教程)

开发环境 以下是我的开发环境 JDK 1.8Maven 3.6.3IDEA 2019&#xff08;2019 无所畏惧&#xff0c;即使现在已经 2023 年了哈哈哈&#xff09; 使用 Maven 的方式创建 Spring Boot 项目 下面的内容可能会因 IDEA 版本不同&#xff0c;而有些选项不同&#xff0c;但是大同小…

若依定制化改造

若依定制化改造 1 前端1.1 去除开屏加载动画1.2 去除登录时验证码1.3 修改网站标题&#xff08;主要是去除“若依”字样&#xff09; 2 后端2.1 用本地缓存替换Redis&#xff08;未完成&#xff09; 1 前端 1.1 去除开屏加载动画 做法&#xff1a; 效果&#xff1a; 这样子那…

契约锁助力公立医院“电子病历”评级,6大应用场景助力评审过关

2019年以来&#xff0c;公立医院每年绩效考核必须要过“电子病历关”&#xff0c;国家卫健委要求所有三级医院电子病历评级要达到4级以上&#xff0c;二级医院要达到3级以上。《电子病历系统应用水平分级评价管理办法&#xff08;试行&#xff09;及评价标准&#xff08;试行&a…

不可不知的脑网络

前言 人们常说&#xff0c;大脑是人类已知的最复杂的网络。人类大脑由大约1000亿个(1011个)神经元组成&#xff0c;由大约100万亿个(1014个)突触连接&#xff0c;这些神经元在多个空间尺度上进行组织&#xff0c;在多个时间尺度上进行功能交互。这个庞大的系统是我们所有思想、…

Prompt learning 教学[基础篇]:prompt基本原则以及使用场景技巧助力你更好使用chatgpt,得到你想要的答案

Prompt learning 教学[基础篇]&#xff1a;prompt基本原则以及使用场景技巧助力你更好使用chatgpt&#xff0c;得到你想要的答案 如果你想系统学习 如果你对 AI 和 Prompt Engineering 不是很了解&#xff0c;甚至连 ChatGPT 也不是很了解&#xff0c;那我建议你从基础篇开始读…

GPS定位与IP地址定位

在日常生活中&#xff0c;常用的定位技术包括GPS定位、基站定位与IP地址定位​、WIFI定位。 关于GPS定位 GPS(Global Positioning System&#xff0c;全球定位系统)起始于1958年美国军方的一个项目&#xff0c;1964年投入使用。20世纪70年代美国陆海空三军联合研制了新一代卫…

HBase入门 Phoenix使用第三方客户端DataGrip连接 连接包含hbase-site.xml配置(八)

1、因为hbase配置了phoenix HBase入门 Phoenix使用第三方客户端DataGrip连接&#xff08;六&#xff09; <property><name>phoenix.schema.isNamespaceMappingEnabled</name><value>true</value></property><property><name>…

@RequestBody,@RequestParam,@RequestPart应用场景和区别

ReqeustBody 使用此注解接收参数时&#xff0c;适用于请求体格式为 application/json&#xff0c;只能用对象接收 RequestParam 支持application/json&#xff0c;也同样支持multipart/form-data请求 RequestPart RequestPart这个注解用在multipart/form-data表单提交请求的方法…

封装Python脚本:使用钉钉机器人发送消息至钉钉

官方帮助文档&#xff1a;https://open.dingtalk.com/document/robots/custom-robot-access 一、获取自定义机器人webhook 可以通过如下步骤设置钉钉机器人&#xff1a; 首先建立或者进入某个群聊在群聊内部点击“设置>机器人>添加机器人” 添加一个自定义机器人&…

从Facebook到Diem币:社交媒体巨头在加密货币领域的演变

大家都知道Facebook是一个全球知名的社交媒体平台&#xff0c;几乎每个人都在其中与朋友分享照片、发表状态或留言。 然而&#xff0c;随着时间的推移&#xff0c;Facebook不仅仅局限于社交交流&#xff0c;而是逐渐涉足更广阔的领域&#xff0c;其中之一就是加密货币。在本文…