原创 | 文 BFT机器人

01

核心要点

Al+制造业赋能，META 发布 SAM 助力机器视觉迎来 GPT 时刻。

机器视觉技术使得工业设备能够“看到”它正在进行的操作并进行快速决策，完整机器视觉系统由硬件+软件组成,分别进行成像和图像处理工作。

目前，以“AI+人类感知”融合为代表的新兴技术开始逐渐渗透至工业制造各环节，机器视觉作为 AI+制造业的种业落地技术已经介入制造业生产环节的跟踪、产品质量的检测等。人工智能是机器视觉的母身，深度学习为机器视觉的技术堡垒，近期 Meta 发布 SAM 模式有望助力机器视觉迎来 GPT 时刻。

机器视觉下游的高景气反哺明显，AI 与机器视觉成为刚需。

AI+机器视觉技术优势明显，政策加持+社会需求(人口红利退潮)驱动中长期发展，我国机器视觉待渗透空间较大。随着工业 4.0 等概念的持续深化+研发技术的不断突破，AI+机器视觉持续赋能下游工业应用领域，有望受益于下游赛道的高景气，从行业领域来看，高景气赛道的半导体、汽车、新能源有望成为未来行业的最重要驱动力之一，电子领域在中长期仍是应用范围最广的下游。

从应用深度来看，AI 赋予机器视觉的高精度优势，使得机器视觉成为不少行业的刚需标配，机器视觉已逐渐嵌入半导体、汽车、新能源鲤电池与光伏的生产检测环节，提高汽车电子的装配质量、突破光伏缺陷检测瓶颈以提高产品良率等。

机器视觉成本集中在上游，核心环节的国产替代化方兴未艾。

25 年全球有望达到千亿市场规模，中国增速领先全球CAGR 为 15% 。

剖析产业链机器视觉产业链的上游硬件：镜头工业相机、光源以及软件，中游为装备制造系统集成厂商，成本集中在技术壁垒高筑的工业相机(价值量占比 23% )以及软件算法(35% );

竞争格局方面，全球机器视觉市场以康耐视 (美国 )、基恩士(日本 )、巴斯勒( 德国)为代表的企业占据全球>50%市场份额，以康耐视和基恩士为代表的双巨头以入局早、扎实产品技术、广泛应用场景经验的优势提前据市场优势。

国内机器视觉上游行业仍处于成长阶段，增长速度大致相当，关注国产替代+AI 迭代下工业相机与软件环节发展。

02

机器视觉—智能制造之眼

2.1 机器视觉的本质是机器的眼睛和大脑

机器视觉技术使得工业设备能够“看到”它正在进行的操作并进行快速决策。

根据美国制造工程师协会(SME)机器视觉分会和美国机器人工业协会( RIA )自动化视觉分会对机器视觉的定义:机器视觉是通过光学的装置和非接触的传感器，自动接收和处理一个真实物体的图像，以获得所需信息或用于控制机器人运动的装置。通俗地说，“眼睛”指的是机器视觉利用环境和物体对光的反射来获取及感知信息;“大脑”指的是机器视觉对信息进行智能处理和分析，根据分析结果来执行相应的活动。

据亿欧智库所称机器视觉是人工智能领域一个正在快速发展的分支，即用机器代替人眼来做测量和判断，是通过光学的装置和非接触的传感器，自动接收和处理真实物体的图像，以获得所需信息或用于控制机器人运动的装置。

中商产业研究院认为，机器视觉可以代替人眼在多种场景下实现多种功能，按功能主要分为四大类:检测、测量、定位、识别。

检测: 指外观检测，其内涵种类繁多。如产品装配后的完整性检测、外观缺陷检测等。
测量:把获取的图像像素信息标定成常用的度量衡单位，然后在图像中精确地计算出目标物体的几何尺寸;
定位:获得目标物体的位置，可以是二维或者是三维的位置信息。定位的精度和速度是定位功能的主要指标。在识别出物体的基础上精确给出物体的坐标和角度信息，自动判断物体位置;
识别:基于目标物进行甄别，包括外形、颜色、条码等。

图1：机器视觉工作流程

资料来源：奥普特招股书

2.2 AI 技术加持，成为机器视觉走向成熟的筹码

人工智能是机器视觉的母身，深度学习为机器视觉的技术堡垒。

近十年来，得益于深度学习等算法的突破、算力的不断提升以及海量数据的持续积累，人工智能逐渐从实验室走向产业实践，以算法、算力和数据为主旋律追求极致创新方面不断突破，为机器视觉实现更新迭代和提高应用价值的重要技术支撑。

在人工智能领域的新兴技术中，采用 BurstDetection 算法探测出深度学习是当前受到广泛关注的人工智能新兴技术,深度学习是一种以人工神经为架构，对数据进行表征学习的算法，“深”主要体现在更深层次的神经网络和对特征的多次变换上，与相同参数数量的浅层网络相比，深度网络具备更好的特征提取和泛化推广能力，不断为图像识别领域带来进步。

2007 年-2009 年，斯坦福教授李飞飞牵头构建起目前图像分类/检测/定位最常用数据集之一的 mage Net，2010-2017 年，基于Image Net数据集的ILSVRC 等一些大规模视觉识别挑战赛促进神经网络和深度学习技术的发展，如 AlexNet 能够将图片识别的错误率下降 14%，Google Brain 采用多 CPU 组合方式构建起深层次神经网络并应用于图像识别，取得突出成效等。

机器视觉与人工智能逐渐融合，引领向工业 4.0 的过渡。

机器视觉是工业自动化的基础技术之一，通过搭载人工智能发展东风实现机器视觉的再一次迭代升级。

此处东风一方面为深度学习的融合，赋予机器视觉更高的准确性和速度，另一方面则为视觉处理所服务的视觉处理器的能力呈现指数级增加，奠定机器视觉中深度学习推理/训练任务的硬件基础。

复盘机器视觉发展，从能够自动执行简单任务的自动化机器，转型为视觉能力不受人类视觉能力极限约束、自主思考，从而能够长期对各种元素进行优化的自主型机器，AI+机器视觉有望能够渗透入工业制造达到全新的水平。

图2：机器视觉与人工智能逐步融合

资料来源：英特尔官网

未来机器视觉将有望搭载更先进 AI 技术，切入更多差异化工业应用场景。

ChatGPT 所引爆的人工智能话题正持续火热，根据中国信息通信研究院和中国人工智能产业发展联盟当前重点逐渐从单点技术转化为实质应用转化阶段，而视觉人工智能已经泛起干层巨浪。

搭载 A 技术的机器视觉可以进一步优化性能适配更多工业应用场景。

一是深度学习为机器视觉延伸出多元的模型架构以及对应性能提升，如生成对抗网络(GAN)能够通过生成器和鉴别器的对抗训练，在生成图像方面的能力超过其他方法;注意力机制中的ViT 则将 Transformer 架构直接应用到一系列图像块上进行分类任务,减少大量所需的预训练资源，即用于在图像处理方面;在人工智能算法的不断训练和学习下，图像识别误差不新缩小，结合机器视觉设备在工业制造中能够发挥优异作用。

二是 AI 技术可以对不同工程问题和工程参数进行建模，利用所采集的高质量数据进行模型的机器学习，模型与机械设备和生产现状深度绑定，以此为基础开发智能系统，继而产生即时可变的、可保持最优化的生产参数，最后交给基础自动化执行、实现机械化-自动化-数字化-智能化的全面升级。

三是 AI 倒逼芯片算力持续提升，计算光学成为下一代机器视觉的突破口，依托算法的升级突破传统光学成像器件，进一步缩小设备尺寸，挖掘多样复杂的图像信息，推动机器视觉技术在工业场景中的进一步普及。

图3：人工智能与机器视觉的融合发展方向

资料来源：长虹AI实验室，陈佛计等《生成对抗网络及其在图像生成中的应用研究综述》

2.3 Meta发布SAM开启机器视觉GPT时刻

Segment Anything Model (SAM)项目是一个用于图像分割的新任务、模型和数据集。在数据收集循环中使用高效模型构建了迄今为止最大的分割数据集，在 1100 万张授权和尊重隐私的图像上有超过 11 亿个掩码。该模型被设计和训练为可提示的，因此它可以将零样本迁移到新的图像分布和任务。当该模型进行充分的网络语料训练后，发现其零样本性能甚至优于调整模型 ( Fine-tuned models ）。

SAM 通过“提示学习”技术对新数据集和任务进行零样本和少样本学习。Meta 研究者提出了 promptable 分割任务，目标是在给定任何分割提示时返回有效的分割掩码。提示符只是指定要在图像中分割的内容，例如，提示符可以包括识别对象的空间或文本信息。有效输出掩码的要求意味着，即使提示是模糊的，并且可能指向多个对象(例如，衬衫上的一个点可能表示衬衫或穿着它的人，输出也应该是其中至少一个对象的合理掩码。将提示分割任务作为预训练目标，并通过提示工程解决一般的下游分割任务。

图4：SAM任务详情

资料来源：Alexander Kirillov等著《Segment Anything》

SAM 由一个的图像编码器、一个提示编码器和一个预测分割掩码的掩码解码器组成。

通过将 SAM 分离为图像编码器和提示符快速编码器/掩码解码器，相同的图像嵌入可以在不同的提示符中重用（及其成本分摊）。给定图像嵌入，提示编码器和掩码解码器在 web 浏览器中从提示符预测掩码的时间为 50ms。重点关注点、框和掩码提示，还用自由形式的文本提示呈现初步结果。为使 SAM 具有歧义性，设计了它来为单个提示预测多个面具，使 SAM 能够自然地处理歧义，如衬衫和人的例子。

图5：SAM模型结构

资料来源：Alexander Kirillov等著《Segment Anything》

SAM 有望助力机器视觉发展，带动 AI+制造业垂直领域技术革新。

SAM 已经学会了关于物体的一般概念，并且它可以为任何图像或视频中的任何物体生成掩膜，甚至包括在训练过程中没有遇到过的物体和图像类型，无需额外的训练。Meta 预计，与专门为一组固定任务训练的系统相比，基于 prompt 工程等技术的可组合系统设计将支持更广泛的应用。SAM可以成为 AR、VR、内容创建、科学领域和更通用 AI 系统的强大组件。比如 SAM 可以通过 AR 眼镜识别日常物品，为用户提供提示；SAM 还有可能在农业领域帮助农民或者协助生物学家进行研究。