端侧智能为什么有前途

年前陆续和很多小伙伴聊过端侧智能的价值，吹捧的、贬低的都有，各自也都有自己的理由。这里，谨作为利益相关方，分享一下自己对端侧智能的看法，尝试回答端侧智能有没有用、为什么有用和该怎么用的问题。文章不含技术干货，旨在为产品、算法、工程提供交流共识，请酌情阅读。

文章仅为个人观点，不代表字节跳动公司立场。

是谁谋杀了人工智能

就在春节期间，动图永动机 · 逻辑鬼才 · 破站年度黑马 · OFO 知名受害人 · 牛顿顿顿的最爱 —— 半佛仙人，更新了一期科(qiǎ)普(fàn)视频【半佛】是谁谋杀了人工智能和机器人。摘录部分脚本如下：

makefile代码解读复制代码02:58
人工智能在现在被吹的已经无所不能。但其中有2个核心难关：一个是数据来源以及数据标准；一个是应用场景的数据收集循环。人工智能依赖算法，而算法需要大量的数据进行训练。

03:10
现在的问题是，各家都在吹自己的算法多么强，但实际上算法不是人工智能的短板。而且现在开源的算法模型一大堆，大量所谓的算法工程师，只是模型调参师外加SQL Boy。随便调参就可以拿高薪的算法时代已经结束了，企业都在大量削弱这些岗位的headcount。

03:25
人工智能在工业界落地的最大问题从来都不是算法，而是行业的数据积累严重不足，且当前数据标准化很差，很多领域的数据直接是空白。

04:36
当你了解了人工智能的落地模式之后，你就可以意识到为什么截止目前，人工智能都是吹的多，但用的最好的地方只有互联网公司的大数据杀熟、高利贷、信息茧房以及让外卖员修仙。因为这些行业是数据化标准化的，数据来源直接侵犯用户隐私。业务定义好坏直接按照赚多少钱、用户沉迷多久来设定目标，然后给算法喂数据就好了。这套逻辑在互联网能赚的盆满钵满，因为东西都在云上。

半佛老师虽然不是人工智能领域的大咖，但视频里人工智能的相关观点，还是代表了众多从业者的看法。简单说，视频认为人工智能依赖算法，而算法依赖标准化的数据和持续收集数据，当前行业的瓶颈不是算法，而是数据。过年期间，和传统医疗、金融体系小伙伴的交流，也基本印证了这样的观点。

人类的悲欢并不相通，需要面临的问题也并不相同。

虽然对于医疗、制造等众多传统行业来说，数字化不足是它们应用人工智能的巨大障碍，但在奋斗在一线的专家学者们也并没有因为难就止步不前了啊 —— 数据的原始积累不补全，我们要怎样摆脱被卡脖子的命运呢？

所以，人工智能从未被谋杀，相反，它一直在前进。

另一方面，对于众多诞生于数字化时代的互联网公司来说，数据驱动是刻在骨子里的基因，如果不能自主建构好数据体系，那也至少应该懂得利用阿里云、腾讯云、火山引擎提供的增长分析和可视化监控等基础设施，否则，是绝难在激烈的竞争中生存下来的。

所以，可能不能以全盖偏，端侧智能的前景，也需要一线的我们躬身入局，给出自己答案。

此外，「大数据杀熟、高利贷、信息茧房以及让外卖员修仙」并不是人工智能应该背负的原罪，人工智能是通用型工具，如何设计优化目标，仍在于人。

交汇点上的端侧智能

端侧智能按字面拆解的话，可以分成「端侧」和「智能」两部分。这里的「端侧」主要是为了区别服务端，既可以单指移动端，也可以涵盖 IoT，但本文中以移动端为主。

很多人把 2010 年 Apple 发布 iPhone 4 作为移动开发大热的起点。而依据 QuestMobile的统计，移动流量月同比增速 2018 4.9% / 2019 2.3% / 2020 1.7% 逐年放缓，人口红利渐渐消退。虽然各路大厂依旧在流量存量空间里杀的火热，但是我们已然在「iOS没人要了」的行业呼声中简历难求。

无人驾驶、脑机接口、芯片禁运等话题，在过去的一年里，频频出现在各类科技头版头条上，而它们背后共同的话题就是人工智能。七十高龄的人工智能可谓大器晚成，一时风光无两。随之而来的，是连年暴涨的简历数量，就业形势「令人感动」。饶是如此，知乎上的高赞择业答案也还是选择坚持。

角落里瑟瑟发抖的移动端，聚光灯下的人工智能，会组合出什么样的新物种？

更重要的是，未来会好吗？

数据、计算与连接

互联网的本质是连接，而人工智能的本质是数据和计算。这里，我们先站在信息处理的角度上，回顾一下数据、连接与计算在历史长河中的演变。

上古时期，人类掌握的数据不论是数量还是维度都非常有限，信息往往只能通过迁徙交流或是部族战争实现交换。在这个时期，往往一族族长就能协调全族，数据的匮乏和连接的贫弱是主要的发展瓶颈。之后，漫长的土地兼并、人口积累、种族融合和工商业发展，使得需要处理的事务激增，而驰道、运河、驿站、烽火台等通讯工具始终究没有能追上疆域扩张的速度。这种情况下，即使帝王将相天赋异禀，也再难凭借一己之力统筹大小事务。于是对内有了先后有了三公九卿、三省六部，分担权责；对外有了州郡县、省路府等行政区划，通过地方官就近节制。到这时，数据就不再是主要瓶颈，单点计算能力不足也在一定程度上通过分层和分工得以隐藏，而连接，尤其是战乱等特殊时期的组织能力，依然在很大程度决定了国家的兴衰。

及至近代，随着电报、互联网的出现，连接的桎梏才真正被打破，全球化信息流通成为可能。自打 1985 年 MS-DOS 问世起，计算机行业在摩尔定理和安迪比尔定律双重加持之下，足足狂奔了 30 年，为更多数据、更广连接提供了必须的计算能力。与计算机一同发展的，是遍及整个社会的数字化，社交网络、电子商务等全商业新模式得以涌现，数据为王的观念伴随着大数据的发展开始深入人心。而后，移动和智能两波浪潮先后到来。随着 GoogLeNet 在 2014 年的 ImageNet 比赛中大放异彩，视觉、听觉、语言等信息陆续被纳入了计算机可处理的数据版图，计算机开始拥有切实可用的对现实世界的理解计算能力。而移动设备更是提供了全面的增强 —— 深度镜头、麦克风和传感器们提供了额外的数据维度，WiFi、4G、5G 的普及让人与网络的连接变得无所不在，日新月异的芯片则提供了必要的计算能力。

你有发现吗？数据、连接与计算并不是线性发展的，不同的发展曲线组合出不同时期的问题瓶颈。而端侧智能正是当下突破瓶颈的一种方案。

相似的逻辑可能也可以套用在 Edge 上，但是三级和两级连接面临的问题肯定是会不同的。

再说挑战

那么，今天移动互联网下的人工智能面临的挑战是什么呢？

个人观点。沿袭自大数据、在虚拟数字世界中用于商业决策的人工智能，和方兴未艾、通过感知现实世界打通次元壁的人工智能，在当下面临的挑战是不尽相同的。下文姑且使用计算智能和感知智能的概念以区分两者吧。

先说计算智能。除了互联网金融这类诞生于智能的新生代以外，大部分互联网公司还是需要先巩固业务根基，再通过智能来优化效率。因此，大部分互联网公司都需要经历或长或短的数据体系建构期。国内的一线大厂基本已经跨过了这一步，但在数据处理能力上又有强弱之分 —— 大部分公司还在摸索模型设计的时候，头部的公司已经将模型价值压榨到了极限，一年万分几的提升就算不错的成绩了。这时，怎样合法地发掘未被开发的数据资源，怎样在有限的成本涨幅内提高数据回流时效，怎样优化数据体系、提升算法效能，就成了头部公司需要去思考的问题。

再说感知智能。图片、视频、语音信息在数据采集上确实更加敏感，公开数据集、众包平台、直播拉流等，为求数据，各家公司可谓八仙过海各显神通。再算上数据清洗、样本标注、模型验证，门槛着实不低，但也并非无解。多媒体场景的扩增，也意味着更高的流量和计算开销，这对连接和计算同时提出了更高要求，连接和计算的负担甚至开始成为一些业务所不能承受之中。但场景定义可能才是难度最高的那个 —— 人工智能的价值并不直接取决于模型，而取决于在场景中，它能在多大程度上提升作业效率、降低人力成本。不同场景对人工智能模型「有用」的定义并不相同，例如，同样是肺炎识别，是批量辅助医生识别，还是替代专家核查，就是完全不同的要求。对于新上路的企业，已经有大量前人验证过的低垂之果可待采撷；而前沿的企业，则需要在数据、连接、计算的重重制约下，找到ROI可行、风险可控的新场景。

1 + 1 = ?

重要的事情说三遍。

端侧智能和云端智能并不冲突。

相比于云端，端侧简直是战斗力只有五的渣渣，存储量、计算力甚至都不在一个量级上，它就像古时候没有多大权力的县官，没多大职权，但离事儿近，就有变革设计的可能。因此，把端侧智能作为武器库里的新把式，想象自己是制度的设计者，调整数据和计算的分配方式，通过精巧的分层，来抹平数据、连接和计算上的能力缺陷。

「什么？我想在模型里使用行为时序，但是后台的哥们说这个真的很难？」

相比于云端，端侧数据存储受到空间制约，但端侧数据读写近乎实时，而云端数据则必须经过上报、清洗、分流、处理、落盘，最快也得是分钟级的延迟。同时，端侧的数据天然是以时序记录的，这也是云端无法比拟的。明确数据的重要程度、存储周期、实时性等，合理分配云端之间数据存储落盘和加工处理，就有可能兼取所长。

需要额外说明的是，数据是可以流动的，且并不仅限于从端到云，只要数据隐私和数据安全无虞，完全可以视场景需要，从云到端下发数据。例如，在列表结果中返回内容的 embedding，这样，「不感兴趣」等负反馈产生时，就可以及时在端侧调整剩余内容。

「什么？录视频开个智能字幕，结果每句话都延迟了有半秒钟之多？」

相比于云端，端侧的计算能力要弱的多，还需要平衡好用户任务和计算任务，小心翼翼防止过热，小心翼翼防止卡顿。但在这个无法忍受进度条的时代，延时或卡顿在多数时候直接意味着用户流失，在网络连接不可控的情况下，在数据生产侧就地完成计算就成了合理的选择。为了更低廉的设备成本，更广的用户覆盖，众多推理引擎在性能「圣杯战争」中无限内卷，众多算法团队在量化、剪枝、NAS 等模型优化的道路上暗自较劲。

搁置网络之后，连接并没有消失，而是转向了从数据到计算在端侧的内循环。数据和计算的桥梁只是不再是网络了，计算可以定时触发，可以由一帧视频触发，可以由一次点击触发，甚至可以由另一次计算的结果触发。天地洞开，你可以庖丁解牛整个端侧业务链路，每一处 magic number、每一处写死的规则和原有的云端智能，都可以是你改造的起点。

「什么？节日五万场直播齐上阵，服务器连内容安全都要吃不消了？」

计算的分配有许多变通的法门，虽然单一客户端的算力有限，但是汇总起所有客户端的算力来，怕是还要远胜过服务端。如果模型可以直接迁移到端侧，那自然成本最低；如果模型不能直接迁移，则也可以将模型中的部分拆分出来，只要获得的收益高于拆分的成本，就可以一试；如果连拆都不能，还可以在客户端设置一道过滤模型，利用额外的小模型来避除那些不符合预期的请求；实在不行，在端上把数据处理好再提交，省一点算一点。同时，不要忽略了对中间结果的利用，拆出模型、过滤模型或数据处理的结果如果可以给用户以反馈，也能在一定程度上提升用户体验。

更进一步，除了推理，如果端侧可以实现样本的构建，训练也可以迁移到端侧。端侧训练有更广的数据选择空间，但更稀疏的样本也给学习率控制带来了更高的挑战。然而，一旦迈过训练的坎，就意味着实现了在云端因为存储、训练成本而难以实现的千人千模，其后的联邦学习，抑或Meta Learning，也不再那么遥远。

效率与体验

下一个问题是如何寻找业务在数据、连接、处理能力上的瓶颈，并合理调配端云智能。

「符合用户需求」是太过非常笼统的说法，难以指导实际决策。个人非常喜欢峰瑞资本的黄海说过的一句话「中国有过多企业旨在提升效率，太少能创造体验」。这句话点明的两个方向 —— 效率和体验，放在端侧智能上一样适用。

效率和体验不在单点在全局，因此切不可找到了「榔头」，看哪都是「钉子」。孙子兵法有云「知己知彼百战不殆」。要提升效率和体验，首先需要厘清业务链路的现状 —— 用户的使用行为是怎样的，行为的主要目标是什么，使用了哪些数据，哪些控制分支，控制采用了什么数据或规则，又相应产生了哪些数据；而后根据掌握的讯息，评估已有和潜在控制点对效率和体验的影响和改造所需的成本，指定改造的计划和目标，才好按图索骥；最后到实际执行时，还得

时时关注细节，查缺补漏。

既然是全局工程，一般都绕不开合作，如果不能独立完成评估，不妨找上下游的同学帮帮忙。一般来说，端侧和云端的工程同学可以确认两端数据的有效性，产品同学可以判别价值和优先级，算法同学则可以评估算法上的可行性和效果。

举个例子说明吧。在大家以为直播上只有美颜特效时，悄悄发生了的改变。主播端上，音频部分有智能降噪，视频部分有ROI区域识别、美颜特效，编码部分有带宽预测、智能选择码率分辨率；用户端上，一样会预测用户带宽，动态调整播放码率，还有图像超分进一步提升画质。这样一套数据智能和感知智能的组合，一方面让用户观看直播不卡不糊，另一方面节约了企业在网络上的开销。智能与不智能之间的竞争差异，就是这样拉开的。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：