年前陆续和很多小伙伴聊过端侧智能的价值,吹捧的、贬低的都有,各自也都有自己的理由。这里,谨作为利益相关方,分享一下自己对端侧智能的看法,尝试回答端侧智能有没有用、为什么有用和该怎么用的问题。文章不含技术干货,旨在为产品、算法、工程提供交流共识,请酌情阅读。
文章仅为个人观点,不代表字节跳动公司立场。
是谁谋杀了人工智能
就在春节期间,动图永动机 · 逻辑鬼才 · 破站年度黑马 · OFO 知名受害人 · 牛顿顿顿的最爱 —— 半佛仙人,更新了一期科(qiǎ)普(fàn)视频【半佛】是谁谋杀了人工智能和机器人。摘录部分脚本如下:
makefile代码解读复制代码02:58
人工智能在现在被吹的已经无所不能。但其中有2个核心难关:一个是数据来源以及数据标准;一个是应用场景的数据收集循环。人工智能依赖算法,而算法需要大量的数据进行训练。
03:10
现在的问题是,各家都在吹自己的算法多么强,但实际上算法不是人工智能的短板。而且现在开源的算法模型一大堆,大量所谓的算法工程师,只是模型调参师外加SQL Boy。随便调参就可以拿高薪的算法时代已经结束了,企业都在大量削弱这些岗位的headcount。
03:25
人工智能在工业界落地的最大问题从来都不是算法,而是行业的数据积累严重不足,且当前数据标准化很差,很多领域的数据直接是空白。
04:36
当你了解了人工智能的落地模式之后,你就可以意识到为什么截止目前,人工智能都是吹的多,但用的最好的地方只有互联网公司的大数据杀熟、高利贷、信息茧房以及让外卖员修仙。因为这些行业是数据化标准化的,数据来源直接侵犯用户隐私。业务定义好坏直接按照赚多少钱、用户沉迷多久来设定目标,然后给算法喂数据就好了。这套逻辑在互联网能赚的盆满钵满,因为东西都在云上。
半佛老师虽然不是人工智能领域的大咖,但视频里人工智能的相关观点,还是代表了众多从业者的看法。简单说,视频认为人工智能依赖算法,而算法依赖标准化的数据和持续收集数据,当前行业的瓶颈不是算法,而是数据。过年期间,和传统医疗、金融体系小伙伴的交流,也基本印证了这样的观点。
人类的悲欢并不相通,需要面临的问题也并不相同。
虽然对于医疗、制造等众多传统行业来说,数字化不足是它们应用人工智能的巨大障碍,但在奋斗在一线的专家学者们也并没有因为难就止步不前了啊 —— 数据的原始积累不补全,我们要怎样摆脱被卡脖子的命运呢?
所以,人工智能从未被谋杀,相反,它一直在前进。
另一方面,对于众多诞生于数字化时代的互联网公司来说,数据驱动是刻在骨子里的基因,如果不能自主建构好数据体系,那也至少应该懂得利用阿里云、腾讯云、火山引擎提供的增长分析和可视化监控等基础设施,否则,是绝难在激烈的竞争中生存下来的。
所以,可能不能以全盖偏,端侧智能的前景,也需要一线的我们躬身入局,给出自己答案。
此外,「大数据杀熟、高利贷、信息茧房以及让外卖员修仙」并不是人工智能应该背负的原罪,人工智能是通用型工具,如何设计优化目标,仍在于人。
交汇点上的端侧智能
端侧智能按字面拆解的话,可以分成「端侧」和「智能」两部分。这里的「端侧」主要是为了区别服务端,既可以单指移动端,也可以涵盖 IoT,但本文中以移动端为主。
很多人把 2010 年 Apple 发布 iPhone 4 作为移动开发大热的起点。而依据 QuestMobile的统计,移动流量月同比增速 2018 4.9% / 2019 2.3% / 2020 1.7% 逐年放缓,人口红利渐渐消退。虽然各路大厂依旧在流量存量空间里杀的火热,但是我们已然在「iOS没人要了」的行业呼声中简历难求。
无人驾驶、脑机接口、芯片禁运等话题,在过去的一年里,频频出现在各类科技头版头条上,而它们背后共同的话题就是人工智能。七十高龄的人工智能可谓大器晚成,一时风光无两。随之而来的,是连年暴涨的简历数量,就业形势「令人感动」。饶是如此,知乎上的高赞择业答案也还是选择坚持。
角落里瑟瑟发抖的移动端,聚光灯下的人工智能,会组合出什么样的新物种?
更重要的是,未来会好吗?
数据、计算与连接
互联网的本质是连接,而人工智能的本质是数据和计算。这里,我们先站在信息处理的角度上,回顾一下数据、连接与计算在历史长河中的演变。
上古时期,人类掌握的数据不论是数量还是维度都非常有限,信息往往只能通过迁徙交流或是部族战争实现交换。在这个时期,往往一族族长就能协调全族,数据的匮乏和连接的贫弱是主要的发展瓶颈。之后,漫长的土地兼并、人口积累、种族融合和工商业发展,使得需要处理的事务激增,而驰道、运河、驿站、烽火台等通讯工具始终究没有能追上疆域扩张的速度。这种情况下,即使帝王将相天赋异禀,也再难凭借一己之力统筹大小事务。于是对内有了先后有了三公九卿、三省六部,分担权责;对外有了州郡县、省路府等行政区划,通过地方官就近节制。到这时,数据就不再是主要瓶颈,单点计算能力不足也在一定程度上通过分层和分工得以隐藏,而连接,尤其是战乱等特殊时期的组织能力,依然在很大程度决定了国家的兴衰。
及至近代,随着电报、互联网的出现,连接的桎梏才真正被打破,全球化信息流通成为可能。自打 1985 年 MS-DOS 问世起,计算机行业在摩尔定理和安迪比尔定律双重加持之下,足足狂奔了 30 年,为更多数据、更广连接提供了必须的计算能力。与计算机一同发展的,是遍及整个社会的数字化,社交网络、电子商务等全商业新模式得以涌现,数据为王的观念伴随着大数据的发展开始深入人心。而后,移动和智能两波浪潮先后到来。随着 GoogLeNet 在 2014 年的 ImageNet 比赛中大放异彩,视觉、听觉、语言等信息陆续被纳入了计算机可处理的数据版图,计算机开始拥有切实可用的对现实世界的理解计算能力。而移动设备更是提供了全面的增强 —— 深度镜头、麦克风和传感器们提供了额外的数据维度,WiFi、4G、5G 的普及让人与网络的连接变得无所不在,日新月异的芯片则提供了必要的计算能力。
你有发现吗?数据、连接与计算并不是线性发展的,不同的发展曲线组合出不同时期的问题瓶颈。而端侧智能正是当下突破瓶颈的一种方案。
相似的逻辑可能也可以套用在 Edge 上,但是三级和两级连接面临的问题肯定是会不同的。
再说挑战
那么,今天移动互联网下的人工智能面临的挑战是什么呢?
个人观点。沿袭自大数据、在虚拟数字世界中用于商业决策的人工智能,和方兴未艾、通过感知现实世界打通次元壁的人工智能,在当下面临的挑战是不尽相同的。下文姑且使用计算智能和感知智能的概念以区分两者吧。
先说计算智能。除了互联网金融这类诞生于智能的新生代以外,大部分互联网公司还是需要先巩固业务根基,再通过智能来优化效率。因此,大部分互联网公司都需要经历或长或短的数据体系建构期。国内的一线大厂基本已经跨过了这一步,但在数据处理能力上又有强弱之分 —— 大部分公司还在摸索模型设计的时候,头部的公司已经将模型价值压榨到了极限,一年万分几的提升就算不错的成绩了。这时,怎样合法地发掘未被开发的数据资源,怎样在有限的成本涨幅内提高数据回流时效,怎样优化数据体系、提升算法效能,就成了头部公司需要去思考的问题。
再说感知智能。图片、视频、语音信息在数据采集上确实更加敏感,公开数据集、众包平台、直播拉流等,为求数据,各家公司可谓八仙过海各显神通。再算上数据清洗、样本标注、模型验证,门槛着实不低,但也并非无解。多媒体场景的扩增,也意味着更高的流量和计算开销,这对连接和计算同时提出了更高要求,连接和计算的负担甚至开始成为一些业务所不能承受之中。但场景定义可能才是难度最高的那个 —— 人工智能的价值并不直接取决于模型,而取决于在场景中,它能在多大程度上提升作业效率、降低人力成本。不同场景对人工智能模型「有用」的定义并不相同,例如,同样是肺炎识别,是批量辅助医生识别,还是替代专家核查,就是完全不同的要求。对于新上路的企业,已经有大量前人验证过的低垂之果可待采撷;而前沿的企业,则需要在数据、连接、计算的重重制约下,找到ROI可行、风险可控的新场景。
1 + 1 = ?
重要的事情说三遍。
端侧智能和云端智能并不冲突。
端侧智能和云端智能并不冲突。
端侧智能和云端智能并不冲突。
相比于云端,端侧简直是战斗力只有五的渣渣,存储量、计算力甚至都不在一个量级上,它就像古时候没有多大权力的县官,没多大职权,但离事儿近,就有变革设计的可能。因此,把端侧智能作为武器库里的新把式,想象自己是制度的设计者,调整数据和计算的分配方式,通过精巧的分层,来抹平数据、连接和计算上的能力缺陷。
「什么?我想在模型里使用行为时序,但是后台的哥们说这个真的很难?」
相比于云端,端侧数据存储受到空间制约,但端侧数据读写近乎实时,而云端数据则必须经过上报、清洗、分流、处理、落盘,最快也得是分钟级的延迟。同时,端侧的数据天然是以时序记录的,这也是云端无法比拟的。明确数据的重要程度、存储周期、实时性等,合理分配云端之间数据存储落盘和加工处理,就有可能兼取所长。
需要额外说明的是,数据是可以流动的,且并不仅限于从端到云,只要数据隐私和数据安全无虞,完全可以视场景需要,从云到端下发数据。例如,在列表结果中返回内容的 embedding,这样,「不感兴趣」等负反馈产生时,就可以及时在端侧调整剩余内容。
「什么?录视频开个智能字幕,结果每句话都延迟了有半秒钟之多?」
相比于云端,端侧的计算能力要弱的多,还需要平衡好用户任务和计算任务,小心翼翼防止过热,小心翼翼防止卡顿。但在这个无法忍受进度条的时代,延时或卡顿在多数时候直接意味着用户流失,在网络连接不可控的情况下,在数据生产侧就地完成计算就成了合理的选择。为了更低廉的设备成本,更广的用户覆盖,众多推理引擎在性能「圣杯战争」中无限内卷,众多算法团队在量化、剪枝、NAS 等模型优化的道路上暗自较劲。
搁置网络之后,连接并没有消失,而是转向了从数据到计算在端侧的内循环。数据和计算的桥梁只是不再是网络了,计算可以定时触发,可以由一帧视频触发,可以由一次点击触发,甚至可以由另一次计算的结果触发。天地洞开,你可以庖丁解牛整个端侧业务链路,每一处 magic number、每一处写死的规则和原有的云端智能,都可以是你改造的起点。
「什么?节日五万场直播齐上阵,服务器连内容安全都要吃不消了?」
计算的分配有许多变通的法门,虽然单一客户端的算力有限,但是汇总起所有客户端的算力来,怕是还要远胜过服务端。如果模型可以直接迁移到端侧,那自然成本最低;如果模型不能直接迁移,则也可以将模型中的部分拆分出来,只要获得的收益高于拆分的成本,就可以一试;如果连拆都不能,还可以在客户端设置一道过滤模型,利用额外的小模型来避除那些不符合预期的请求;实在不行,在端上把数据处理好再提交,省一点算一点。同时,不要忽略了对中间结果的利用,拆出模型、过滤模型或数据处理的结果如果可以给用户以反馈,也能在一定程度上提升用户体验。
更进一步,除了推理,如果端侧可以实现样本的构建,训练也可以迁移到端侧。端侧训练有更广的数据选择空间,但更稀疏的样本也给学习率控制带来了更高的挑战。然而,一旦迈过训练的坎,就意味着实现了在云端因为存储、训练成本而难以实现的千人千模,其后的联邦学习,抑或Meta Learning,也不再那么遥远。
效率与体验
下一个问题是如何寻找业务在数据、连接、处理能力上的瓶颈,并合理调配端云智能。
「符合用户需求」是太过非常笼统的说法,难以指导实际决策。个人非常喜欢峰瑞资本的黄海说过的一句话「中国有过多企业旨在提升效率,太少能创造体验」。这句话点明的两个方向 —— 效率和体验,放在端侧智能上一样适用。
效率和体验不在单点在全局,因此切不可找到了「榔头」,看哪都是「钉子」。孙子兵法有云「知己知彼百战不殆」。要提升效率和体验,首先需要厘清业务链路的现状 —— 用户的使用行为是怎样的,行为的主要目标是什么,使用了哪些数据,哪些控制分支,控制采用了什么数据或规则,又相应产生了哪些数据;而后根据掌握的讯息,评估已有和潜在控制点对效率和体验的影响和改造所需的成本,指定改造的计划和目标,才好按图索骥;最后到实际执行时,还得
时时关注细节,查缺补漏。
既然是全局工程,一般都绕不开合作,如果不能独立完成评估,不妨找上下游的同学帮帮忙。一般来说,端侧和云端的工程同学可以确认两端数据的有效性,产品同学可以判别价值和优先级,算法同学则可以评估算法上的可行性和效果。
举个例子说明吧。在大家以为直播上只有美颜特效时,悄悄发生了的改变。主播端上,音频部分有智能降噪,视频部分有ROI区域识别、美颜特效,编码部分有带宽预测、智能选择码率分辨率;用户端上,一样会预测用户带宽,动态调整播放码率,还有图像超分进一步提升画质。这样一套数据智能和感知智能的组合,一方面让用户观看直播不卡不糊,另一方面节约了企业在网络上的开销。智能与不智能之间的竞争差异,就是这样拉开的。
读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
资源分享
大模型AGI学习包
资料目录
- 成长路线图&学习规划
- 配套视频教程
- 实战LLM
- 人工智能比赛资料
- AI人工智能必读书单
- 面试题合集
《人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取!
1.成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。
2.视频教程
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,其中一共有21个章节,每个章节都是当前板块的精华浓缩。
3.LLM
大家最喜欢也是最关心的LLM(大语言模型)
《人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取!