机器视觉公司,在玩一局玩不起的游戏

news2024/10/7 20:35:01

导语

        有个著名咨询公司曾经预测过:未来只有两种公司,是人工智能的和不赚钱的。

        它可能没想到,还有第三种——不赚钱的AI公司。

        去年我们报道过“正在消失的机器视觉公司”,昔日的“AI 四小龙”( 商汤、旷视、云从、依图),在商业化盈利上各有各的不顺。不过,随着GPT系列产品又掀起一股“大炼模型”的热潮,这些AI公司又支棱起来了。

        商汤科技此前曾披露,下一步的发展战略是通用人工智能(AGI),继续推进“大装置+大模型”,并发布了1800亿参数的中文语言大模型 “商量”。

        旷视科技也表态,会坚定投入生成式大模型的研发,保持核心技术能力长期领先。

        云从科技公开的定增预案中,为云从“行业精灵”大模型研发项目,募集资金不超过36.35亿元。

        依图科技没有公开消息,但在此前的融资中曾因AI大模型和国产芯片等被看好。

        无论是上一轮,以BERT、GPT-3为代表的“预训练+精调”大模型,还是此刻正红火的,以ChatGPT、GPT-4、文心一言等为代表的“预训练+精调+提示+RLHF(人类反馈)”的大语言模型,已经成为各大头部科技公司“秀肌肉”、相互竞争的重要工具。

        谷歌、百度等大厂跑着入场,各路大模型“神仙斗法”。这场狂欢派对,成了机器视觉公司不得不玩、又玩不起的游戏。


1 | 尴尬的“长衫”

        最近,CV公司参与到大模型这局游戏中,出现了这样的画风:语气一会儿大,一会儿怂。

        在公开信息中,都表示自己会加大投入,去解决基础技术、基础问题。云从的管理者说要“投一二十亿解决算力问题”“我们是技术公司,研发投入不会低”;商汤的有关人士称,要做“统一化标准化的大模型”“加速构建通用人工智能的核心能力”;旷视也对标OpenAI,要“做影响物理世界的 AI 技术创新”。

        谈到大模型技术和产品本身,底气又不足了。

        这个说“基础大模型要有长期布局,NLP难点很多,短期内与境外领先企业会存在较大差距”,那个说“中国AI公司有商业化的压力,不能像OpenAI那样不计代价的创新”。

        “预期管理”算是被你们玩明白了。

        年轻人流行说自己是“脱不下长衫的孔乙己”,CV公司对于大模型这种不尴不尬的处境,其实也和“孔乙己”有相似之处。

        CV公司在底层技术、基础设施、人才、资金、生态等领域的积累,不如头部科技企业优势显著。所以,自然也不可能真的跟谷歌、OpenAI、BATH(百度、阿里、腾讯、华为)正面打擂台,烧钱去做通用的基础大模型(foundation model)。

        新一轮大语言模型,完整技术栈、工程实现能力、算力成本、数据积累等都有极高的门槛,AI公司自研大语言模型的难度前所未有。 OpenAI 在2022年就花掉了5.44亿美元,收入只有3600万美元,这是国内CV公司不具备的家底儿。

        当然,外界也不应该过度放大CV公司的责任,非要将巨头才能承担的创新压力放在CV公司身上。

        但是,CV公司又有着“AI-native原生企业”的光环,也确实积累了很多技术储备, 所以也不能直接躺平,像ISV集成商、软件公司一样依附大厂,欢欣鼓舞地等着集成或调用API就好。

        昔日的“AI四小龙”还是要撑起“技术自立”的架子,努力融入这波炼大模型的热潮里,于是,又将模型数量和参数规模的比拼,拉升到了新的竞争水平。

        比如云从有NLP、视觉领域的预训练模型,商汤在“AI大装置SenseCore”的基础上,构建的日日新大模型体系就包含了通用视觉模型、中文语言模型、图片生成模型……其中,仅“商量”大模型的参数规模,就和GPT-3差不多。

        今天大家都感慨,孔乙己脱下长衫不容易,换个角度,“大模型”这件长衫,CV公司是不是有必要穿上呢?


2 | 玩不起的游戏

        从2018年的预训练大模型到2023年的大语言模型,大模型走过了一个从萌芽到繁荣的小周期,种类、功能也丰富起来,我们已经见过很多AI企业、高校和科研机构、行业公司所打造的各种各样的大模型。

        问题便随之而来:

第一,大模型的“智能涌现”,需要在超大规模的数据和充分的训练才能出现,只有不计投入的基础模型能做到。

        很多面向行业的预训练大模型,由于数据和训练不足,无法达到“智能涌现”的临界点,这也是为什么此前预训练大模型那么多,却只有ChatGPT的到来,才证实了“通用人工智能”的可行性。

        在基础模型的鲁棒性、泛化性极大提升的今天,一味盲目地“训大模型”,结果就是“大小班同上”,基础大模型和行业大模型一起,消耗本就不充沛的算力,进一步推高计算成本,让AI企业背上更重的负担。

第二,大模型的商业化路径,标准化API是比较基础的一种,而基础模型API有虹吸效应。

        简单来说,通过API接入AI能力,技术是决定性因素,基础模型的能力强、受众广泛,很容易通过API经济完成商业化,而行业大模型面对的领域较窄,很难通过“规模效应”来摊薄研发成本。

        随着一个又一个大模型被推向市场,大家恍然发现:原来我们并不缺大模型,缺的是商业化路径。

        目前,大模型的商业化还比较有限,C端通用产品贴成本定价,B端盈利前景不明朗,根据 A16Z 对美国 LLM 创业调研,纯模型厂商只能拿走0-10%的价值,并且要长期对标OpenAI的定价策略,会面临很大的商业化压力。

        通用基础模型和行业大模型一起面向市场和客户,结果就是,在商业价值分配上产生博弈。AI巨头“神仙斗法”,打造出的通用基础大模型会吸引产业和用户的最多关注。

        而大量行业大模型,要么在训完后无人问津,浪费了前期投入;要么无法满足产业需求,商业化前景受限;或者跟通用基础大模型的能力有冲突,导致商业化达不到预期。

        同为AI创业型公司的出门问问创始人李志飞,就在一次采访中直言:“不是所有人都要去做通用大模型,贸然进入,难度很大,商业竞争很激烈,想不清商业模式到最后会很痛苦。”

        所以,大炼模型,可能是CV公司目前玩不起的一局游戏。


3 | 轻装上阵的路

        你可能会问,现在大模型这么火,不训大模型怎么能吃到这波红利,在新一轮AI热潮里建立优势呢?

        CV公司要轻装上阵,可能要尝试这样几条路,去探索大模型热潮中的机会:

1 、 跟基础大模型平台建立更紧密地联系。

        自己开发大模型难度太大,训练成本、存算成本过高,社区生态支持也不够充足。可以站在巨人的肩膀上,接入基础模型的能力打造小模型,与基础模型的商业模式形成差异。

        此前CV公司盈利难的一个挑战是:机器视觉要进入腰尾市场,存在着海量的碎片化需求,客户体量比较小、数量多,项目规模不大,这对CV公司的开发效率提出了很高的要求。

        通用的成熟型算法,无法满足细分需求,但全靠算法工程师来定制开发不现实,也不够经济划算。基础大模型,将算法开发推进到工业化阶段,减少了编程工作量,提高了开发效率,定制化算法的性价比提高,也就更容易为企业所接受。

        对于CV公司来说,算法进入工业化大生产阶段,将碎片化需求全面覆盖、规模化复用,整体营收能力自然也就上来了。

2 、 深入到具体行业中去,构筑能产生差异化的应用产品。

        基础模型要走向产业,必须进一步精调,CV公司就有相应的优势。

        很多高度专业化或复杂的工作,比如金融、建筑设计、编程、办公、客服等,需要精准的垂类知识;一些特定领域,比如医疗、司法,非结构化数据比较稀缺。没有足够的语料来“投喂”,基础模型在这些场景就会欠缺一些“常识”,比如GPT-4就写不好中文诗。

        据说,GPT-3.5的训练数据集全部为私有数据集,其中关键的SFT训练集,有89.3%的数据是定制的。

        CV公司大多有自己聚焦的垂直领域,比如依图的智能医疗,旷视的物联网,云从的智慧园区,商汤的智慧城市、智慧出行等,可以结合在相关领域沉淀的差异化数据集,利用精调或prompt的方式,打造出更加精确、可靠的小模型,更容易部署,为AI应用加速AI的快速落地。

3 、 建立更具韧性的生态合作护城河。

        CV公司在大模型技术上的积累,就会变成AI 2.0时代的底牌,也可以作为与AI巨头、算力提供商的生态合作筹码。

        比如这一轮大模型,对提示学习、人类反馈的强化学习RLHF等提出了很高的要求,让模型在人类的引导下,发现知识的使用方式,理解人类的偏好,这在国内都属于很新的领域,提示师、专业标注师很少。有媒体报道,OpenAI的标注员,本科学历52.6%,硕士学历36.8%,这就不能全部靠众包模式来进行数据标注,必须拥有自己的垂直领域的标注团队。

        比如医疗领域,医学图像还没有建立起自然图像那么大级别的数据库,而对医学图像的标注是很难的,不像自然图像标注,普通人一看就知道是什么,医学图像的数据标注涉及到器官、癌变等专业知识,就需要针对性地积累。

        这样的高水平技术人员,恰恰是CV公司这种AI-native原生企业的重要资源,可以与产业链上下游开展更紧密地合作,从而保障产品和服务的竞争力和可持续性,吸引客户更多地将数据放入自己的产品中,形成马太效应。

4 | 结语

        大模型开辟了一条蕴藏着极大价值和可能性的新路,被寄托了太多期待和野心。要有大模型能力,不代表要自己训大模型。

        重复建设的热潮终会褪去,届时,大模型商业化的考验才刚刚开始。

        对于CV公司来说,脱下“大模型”的长衫,是为了留住商业化的“底裤”。集体弄潮只是只是一时热闹,保存实力才能在AI江湖中走得更远。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/417829.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大数据 | HBase基本工作原理

前文回顾:MapReduce基本原理 目录 📚HBase基本介绍 🐇HBase的设计目标和功能特点 🐇HBase在Hadoop中的生态环境 📚HBase的数据模型 🐇逻辑数据模型 🐇物理存储格式 📚HBase基…

rust网络编程以及unsafe模块

网络层目前 IPv4 和 IPv6 分庭抗礼,IPv6 还未完全对 IPv4 取而代之;传输层除了对延迟非常敏感的应用(比如游戏quic协议),绝大多数应用都使用 TCP;而在应用层,对用户友好,且对防火墙友…

PageRank算法介绍

互联网上有数百亿个网页,可以分为这么几类:不含有用信息的,比如垃圾邮件;少数人比较感兴趣的,但范围不是很广的,比如个人博客、婚礼公告或家庭像册;很多人感兴趣的并且十分有用的,比…

基于DBN神经网络的语音分类识别

目录 背影 DBN神经网络的原理 DBN神经网络的定义 受限玻尔兹曼机(RBM) DBN的语音分类识别 基本结构 主要参数 数据 MATALB代码 结果图 展望 背影 DBN是一种深度学习神经网络,拥有提取特征,非监督学习的能力,是一种非常好的分类算法,本文将DBN算法应用于语音分类 DBN神…

排污口漂浮物监测系统 yolov5

排污口漂浮物监测系统通过YOLOV5网络模型技术,排污口漂浮物监测算法模型对河道两岸各处排污口进行7*24小时不间断实时监测,当监测到河道两岸的排污口违规乱排乱放时,不需人为干预系统立即抓拍存档告警。我们选择当下YOLO卷积神经网络YOLOv5来…

实现数字化转型升级,快速开发平台流辰信息来助力!

在如今迅猛发展的年代里,科技的力量是伟大的,可以让老百姓的生活变得丰富多彩,也可以让各行各业的企业实现办公自动化,朝着数字化转型升级,快速提升办公协作效率。快速开发平台流辰信息作为一家低代码平台服务商&#…

(顺序栈)有效括号序列

文章目录前言:问题描述:问题解析:代码实现:总结:前言: 此篇是针对顺序栈的经典练习题。 问题描述: 给定一个只包括 ‘(’,‘)’,‘{’,‘}’,‘…

iOS / iPadOS 15.7.4发布安全更新 旧版iPhone和ipad无法升级系统解决方法

苹果于昨日面向无法升级到 iOS / iPadOS 16 的旧款 iPhone 和 iPad,发布了 iOS / iPadOS 15.7.4 更新。本次更新并未引入新的功能,而是重点修复了存在于 WebKit 的两个“关键”漏洞。 iOS / iPadOS 15.7.4发布安全更新: 目前已经有充足的证据…

adb基本操作操作

Mumu模拟器 进入终端 cd C:\Program Files\Netease\MuMuPlayer-12.0\shell 获取root权限 adb root 连接手机 adb connect 127.0.0.1:7555 adb shell 查看连接多少台设备 adb devices 安装程序apk adb install C:\Android\CalcTest.apk adb install -r C:\Android\CalcT…

遥感常用库的比较:Rasterio vs GDAL

一、前言本博客对三种栅格处理工具做一个小小的比较:Python (rasterio) 和 GDAL。当我开始使用 GIS 和栅格处理时,我并没有真正关注我编写的脚本和使用的工具的性能。 但现在,处理更大的数据、更高的空间分辨率、快速处理我的光栅文件是成功的…

国产PIE-SAR软件

1.产品定位 PIE-SAR是一款针对国内外主流星载SAR传感器的数据处理分析软件,提供图形化操作界面。目前已支持国内外主流星载SAR传感器的数据处理与分析,包括强度图像基础处理、区域网平差处理(含异源匹配、RD/RPC区域网平差)、InS…

TensorFlow 1.x 深度学习秘籍:1~5

原文:TensorFlow 1.x Deep Learning Cookbook 协议:CC BY-NC-SA 4.0 译者:飞龙 本文来自【ApacheCN 深度学习 译文集】,采用译后编辑(MTPE)流程来尽可能提升效率。 不要担心自己的形象,只关心如…

知识图谱学习笔记——(二)知识图谱的表示

一、知识学习 声明:知识学习中本文主体按照浙江大学陈华钧教授的《知识图谱》公开课讲义进行介绍,并个别地方加入了自己的注释和思考,希望大家尊重陈华钧教授的知识产权,在使用时加上出处。感谢陈华钧教授。 (一&…

Node版本管理工具

一、nvm简述 官网地址:https://nvm.uihtm.com/ nvm(全称:node.js version management),是一个nodejs的版本管理工具,为解决node.js各种版本存在不兼容问题,可以使用nvm工具快速安装和切换不同版…

领英精灵安全吗?附LinkedIn(领英)开发客户的关键点

面对全球最大的职场社交平台——LinkedIn(领英),很多蠢蠢欲动的外贸新人经常会问到:为什么那么多的外贸培训课程,机构和讲师以及一些外贸老鸟都会提到“如果想要把LinkedIn(领英)经营成一个有效的客户开发渠道,都会建议利用针对Li…

【机器学习】P17 梯度下降 与 梯度下降优化算法(BGD 等 与 Adam Optimizer、AdaGrad、RMSProp)

梯度下降与梯度下降算法梯度下降梯度下降算法基础优化算法批量梯度下降 BGD随机梯度下降 SGD小批量梯度下降 MBGD动量梯度下降 MGD基础优化算法上的改进和优化的算法自适应梯度算法 Adagrad均方根传播算法 RMSProp自适应矩估计算法 Adam代码如何实现梯度下降如何判断收敛梯度下…

pytorch搭建ResNet50实现鸟类识别

🍨 本文为🔗365天深度学习训练营 中的学习记录博客 🍦 参考文章地址: 365天深度学习训练营-第J1周:ResNet-50算法实战与解析 🍖 作者:K同学啊 理论知识储备 深度残差网络ResNet(dee…

KD2511N高精度直流低电阻值测试仪

一、产品简介 KD2511N直流低电阻测试仪采用32bits CPU和高密度 SMD贴装工艺, 拥有0.05%的 电阻测量精度及1uΩ 小电阻分辨率,内部比较器可让使用者自行设定上限/下限参考比较值。高达每秒15次的测试速度能显著提高工作效率,免清零的设计在小电…

数据结构刷题笔记 | 数组、字符串、链表、栈、队列、数、图

本篇为笔者学习数据结构时,在牛客网站的刷题笔记。 数据结构分为: 逻辑结构【面向问题的】 集合结构线性结构(一对一)树形结构(一对多的层次关系)图形结构(多对多) 物理结构&#x…

Docker 实战笔记-基础

转载请标明出处:http://blog.csdn.net/zhaoyanjun6/article/details/130181636 本文出自【赵彦军的博客】 文章目录官网下载安装安装Docker 镜像常用命令docker infodocker imagesdocker versiondocker 仓库官方仓库:[https://hub.docker.com/](https://…