为什么看上去很简单的智慧功能点要价上千万?

news2025/2/24 7:08:55

人工智能(Artificial Intelligence,AI)已经不是什么新概念,第三次浪潮于2016年AlphaGo战胜李世石为标志正式开启,至今也已经走过6个年头。

发展至今,AI已经进入老百姓的日常生活,比如随处可见的人脸识别、大数据杀熟的猜你喜欢、翻译神器同声传译以及这两年火出天际的无人驾驶等等。这些场景或是因为C端市场巨大,利润回报丰厚;或是因为产业规模巨大,想象空间无限;纷纷成为了AI产业关注和发展的重点领域。那相对小众和偏门的档案行业呢?是不是也存在AI应用的典型场景?
 

答案是肯定的。笔者曾经在2018年整理过AI+档案的应用场景,如下图所示:

 

至少表面上看起来,不管是图像识别、语音识别还是自然语言处理(NLP)、机器人和档案业务还是有很多结合点的,但实际情况并没有这么乐观,AI在档案领域的应用落地还有很长的路要走。下面,笔者就用两个档案从业人员耳熟能详的功能需求结合自己的亲身经历来聊聊AI+档案的实施过程。

一、需求描述

笔者接触的两个智慧功能点都和档案数字化加工成果有关,属于AI领域中最古老、最成熟、最容易见效的图像识别领域。

01

数字化加工成果自动质检

需求来源于东北某档案馆。我还清楚地记得2018年的某一天,馆长抓着我的手就像是找到了大救星,一定要带我去他们馆的数字化加工现场察看。确实,一线质检人员纯人工检查扫描图像质量,每人每天要看几千幅档案图像,从中挑出存在质量问题的图像,眼睛都快要看爆掉了。

图像质量问题五花八门,比如整体偏斜、存在黑点/黑边/装订孔、图像倒置、缺页漏扫、部分区域字迹模糊、部分区域未扫描/有折痕、不同区域清晰度/明暗度存在明显差别等等。

图像偏斜和图像倒置示例如下图所示:

 

当然,以上只是给出了两个比较典型并且相对比较容易处理的示例,实际的情况肯定要复杂得多。问题在于:即使AI能够过滤掉80%以上存在明显错误的图像,对于质检人员而言,剩下不到20%存在问题的图像依然需要人工检查,照例是大海捞针般地逐页检查,工作量并没有实质性的降低。除非AI能够过滤掉质量允许范围内的错误图像(比如98%以上),甚至漏检率低于1%,这样的话质检人员就不需要再逐页检查,只需要按照一定比例抽检就可以了,从而大幅度降低质检工作量。

02

带密数字化副本智能鉴别

需求来源于华东某档案馆。2019年有幸和馆长在福州数字中国的某一次会议上碰面,聊起这个事情,当时我个人判断这个需求应该可以实现,当然需要找国内头部的AI厂商协助,我们自己是没有能力做的,于是答应馆长在深入调研之后再出具一个解决方案。后来在需求调研并与AI厂商沟通之后,发觉问题没有我想象中那么简单。

带密数字化副本图像示例如下所示:

 

 

同样,这里只给出了两种情况的示例,实际的情况要复杂得多,密级标识的形状包括但不限于:圆形、方形、椭圆形、钢笔手写、毛笔手写、无框等等,还要区分黑白和彩色。馆内大约有2000万页已鉴定为开放的档案图像拟通过互联网面向社会公众提供档案利用服务,但是其中混杂了部分带有密级标识的数字化副本。按照档案利用相关规定,有密级标识的档案不能提供公众利用,需要完成对档案的解密且添加解密标志(或遮盖“密级标识”)后才能提供给公众利用。可以想见,如果采用人工方式对这2000万页档案图像进行排查,工作量有多大,需要雇佣多少人员,花费多少时间。

二、沟通过程

笔者带领技术团队一方面梳理需求,一方面和国内AI代表性头部厂商(科大讯飞、商汤科技、阿里达摩院)进行了技术和商务沟通。沟通结果比较一致,总结起来主要包括以下几点:

01

这两方面需求都是专业领域的特殊需求,目前没有可供参考借鉴的成熟模型,需要组织团队,投入力量进行建模、训练、标注、学习;

02

技术基本判断是可行的,准确度的提升有一个迭代过程,达到理想的程度需要一段时间,预计半年左右;

03

由于这是一个具体项目,不是公司的战略方向,在资源调配投入上优先级不会排在很前面,除非项目标的很大;
 

04

两个需求的费用差不多,分别都在千万元人民币以上,低于千万做不了。

最终由于报价和客户的心理预期差距太大,这两个具有典型代表性的AI+档案项目胎死腹中,客户最终还是通过纯人工的方式继续推进,放弃了AI+档案解决方案。

看到这里,我不知道读者是什么感受,但是笔者可以很负责任地说,这三家头部AI厂商并没有瞎报价,如果按照单个定制项目去评估工作量和报价,确实在千万级别。

笔者曾经代表原公司和阿里达摩院有过战略合作,2018年的时候也有幸去达摩院做过一次现场技术交流,当时坐在我们对面的大概有10来位达摩院的同学(阿里的员工都叫“同学”),会后,负责和我们对接的同学对我说:你不要看刚才开会坐在你对面的有些同学很年轻,像是刚走出校门的样子,但他们的月薪没有低于5万人民币的!

上述两个需求如果按照定制项目来实施,假设达摩院组建了一个10个人的团队:

 

公司越大,分工越细,10个人的团队一点都不夸张,如果这个项目实施6个月(也就是60个人月),按照平均每人月的成本10万元(平均工资按照7万元/人月计算,加上社保就差不多10万了,还没有计算公司的其他公摊成本)计算,就是600万元了!

这还仅仅是达摩院内部人员的成本,AI项目的成功实施还不是AI厂商一方就能搞定的,还少不了数据标注、训练学习的外包团队!况且还有差旅、会务等其他成本。所以,低于1000万的项目对于这些AI头部厂商而言确实做不了,况且对他们来说个性化定制出来的项目成果还没有多少推广价值。

三、无人工不智能

“人工”与“智能”到底是什么关系?关于这点最经典的回答是“无人工不智能”。

这是因为在很多人工智能项目实施过程中往往需要花大量的时间和精力完成对用于训练AI的数据的处理。之后这批被人工处理过的数据将被用于“训练”AI。这种人工处理生成的数据的质量越高,量越大,AI的训练效果就越好。由于对最原始的数据处理往往并没有明确的可以让机器理解的规则,所以这部分原始数据的处理不得不依赖人工介入。而且,AI的训练、学习、改进、完善是一个反复迭代的过程,所以,同一个模型的训练可能需要反复好几次,由人工找出并标注早期AI识别过程中的错误,使其不断提高准确率。

这是一张人工智能数据标注现场的照片,他们才是真正的幕后英雄。可能很多人都想不到,那么多光鲜亮丽的AI智能应用场景背后实际上是用人工堆出来的,有多少人工就有多少智能

 

作为一个相对小众和偏门的行业,现阶段AI+档案只能在一些大众化、通用化的场景中先进行应用,这样实施成本会低很多,比如人脸识别、语音识别等。客观地讲,要在专业领域中定制AI功能满足特定需求,代价太大,尚需时日。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/181874.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C语言】从0到1带你学会文件版动态通讯录

🌇个人主页:平凡的小苏 📚学习格言:别人可以拷贝我的模式,但不能拷贝我不断往前的激情 🛸C语言专栏:https://blog.csdn.net/vhhhbb/category_12174730.html 小苏希望大家能从这篇文章中收获到许…

初学者试试,HarmonyOS应用开发者基础认证

一些初学HarmonyOS应用开发的同学往往不知道如何开始,建议先试试《HarmonyOS应用开发者基础认证》,基础认证是华为进一步大范围布局推广“鸿蒙世界”的新举措。也是初学者开启鸿蒙世界的一把钥匙。 【说说鸿蒙世界】 相信大家已经对鸿蒙不陌生了&#x…

IDEA新建js项目和执行js脚本

一)、安装Node.js具体操作参考:https://blog.csdn.net/xijinno1/article/details/128774375二)、IDEA中新建js项目(hello world)1.按照下图,新建js项目2.选中示例代码文件后点击运行->运行3.选择【编辑配置】4.更新一下节点解释器(nodejs.exe),点击运…

界面组件DevExpress WPF v22.2 - Windows 11暗黑主题发布

DevExpress WPF拥有120个控件和库,将帮助您交付满足甚至超出企业需求的高性能业务应用程序。通过DevExpress WPF能创建有着强大互动功能的XAML基础应用程序,这些应用程序专注于当代客户的需求和构建未来新一代支持触摸的解决方案。 无论是Office办公软件…

Unity 之 Addressable可寻址系统 -- 资源远程加载 | 资源预下载

可寻址系统远程加载 -- 资源预下载 -- 进阶(三)一,Unity 云资源分发 -- 使用介绍1.1 CCD 的介绍1.2 后台准备工作二,CDD的使用2.1 CCD可视化界面的使用2.2 CDD命令行界面使用2.2.1 准备工作2.2.2 CLI 用法三,AA CCD资…

Qt扫盲-QObject对象和线程

QObject对象和线程一、概述二、QObjectReentrant性三、每个线程事件的循环四、从其他线程访问QObject的子类五、跨线程的信号和槽函数一、概述 QThread继承QObject。QThread它发出信号来指示线程开始或结束执行,还提供了一些任务槽。 Qobject可以在多个线程中使用…

L1-006 连续因子

一个正整数 N 的因子中可能存在若干连续的数字。例如 630 可以分解为 3567,其中 5、6、7 就是 3 个连续的数字。给定任一正整数 N,要求编写程序求出最长连续因子的个数,并输出最小的连续因子序列。 输入格式: 输入在一行中给出一…

Python爬虫(1)一次性搞定Selenium(新版)8种find_element元素定位方式

selenium中有8种不错的元素定位方式,每个方式和应用场景都不一样,需要根据自己的使用情况来进行修改 这里写目录标题1.id定位2.CSS定位3.XPATH定位4.name定位5.class_name定位6.Link_Text定位7.PARTIAL_LINK_TEXT定位8.TAG_NAME定位总结目前selenium已经…

力扣SQL刷题

目录标题571. 给定数字的频率查询中位数574. 当选者608. 树节点612. 平面上的最近距离619. 只出现一次的最大数字571. 给定数字的频率查询中位数 题型:给出数值和对应频率,返回中位数 解答:分别升序和降序排列。中位数正序和倒序所处的位置都…

人工智能图片素材高清,机器人图片卡通 素材

1、做一个人工智能的ppt需要哪些素材 不能理解你的问题。ppt仅仅是一个做幻灯的软件,可以插入图片、动画、音乐、过场等幻灯的功能,还谈不上有人工智能的能力。人工智能需要有更为强大的类似人脑思维的能力,简单的说人工智能是可以思考的机器…

【HBase——陌陌海量存储案例】2. HBase表结构设计(中)

前言 本文是陌陌海量存储案例——HBase表结构设计(中),介绍ROWKEY设计原则、项目初始化。 4.5 ROWKEY设计原则 4.5.1 HBase官方的设计原则 避免使用递增行键/时序数据 如果ROWKEY设计的都是按照顺序递增(例如:时间…

信息论复习—差错控制编码

目录 差错控制编码的基本概念: 差错控制编码的主要类型和方式: 差错控制编码的主要类型: 差错控制方式: 简单的差错控制方法: 奇偶校验码: 重复码: 信道编码的基本概念和定理*: 信道编…

4 反向传播

文章目录问题提出计算图中的神经网络改进(激活函数)反向传播前馈计算反向传播pytorch当中的前馈与反馈Tensor张量课程代码课后作业课程来源: 链接课程内容部分来源(觉得归纳的非常好的): 链接以及&#xff…

MySQL中的运算符

目录 一.运算符 简介 算术运算符 比较运算法 逻辑运算符 位运算符 实例演示 一.运算符 简介 数据库中的表结构确立后,表中的数据代表的意义就已经确定。通过MySQL运算符进行运算,就可以获取到表结构以外的另一种数据。 例如,学生表中…

[数据结构笔记]二叉树初阶

基本知识 树 -节点的度:一个节点含有的子树的个数称为该节点的度; -叶节点或终端节点:度为0的节点称为叶节点; -非终端节点或分支节点:度不为0的节点; -父节点:若一个节点含有子节点&#xff…

Mybatis 通过接口实现 sql 执行原理解析

使用过 mybatis 框架的小伙伴们都知道,mybatis 是个半 orm 框架,通过写 mapper 接口就能自动实现数据库的增删改查,但是对其中的原理一知半解,接下来就让我们深入框架的底层一探究竟1、环境搭建首先引入 mybatis 的依赖&#xff0…

Consul服务注册与发现

目录 一、Consul简介 (一)官网 (二)特点 二、安装并运行Consul (一)官网安装说明 (二)下载 (三)使用开发模式启动 三、服务提供者 四、服务消费者 …

怎么压缩pdf文件?选对方法其实很简单!

相信许多人在使用设备的时候都会面对这样一个问题,那就是设备内存不足。仿佛不管我们多么努力的节省空间,总是会到头来遇到储存空间不足得难题,尤其是一些比较大的pdf文件,特别占据我们的设备内存,那么你知道怎么压缩p…

0128 Web API基本认知

作用使用JS去操作html和浏览器分类DOM(文档对象模型)BOM(浏览器对象模型)DOM是什么:Document Object Model-----文档对象模型,用来呈现以及与任意HTML或XML文档交互的API,浏览器提供的一套专门用…

【Linux】一文掌握Linux权限

环境:centos7,腾讯云服务器Linux文章都放在了专栏:【Linux】欢迎支持订阅🌹前言权限 一词相信大家都不陌生,与我们的生活密切相关。小区里的门禁制度、公司里的管理制度、学校里的校规规定、甚至是社交平台上的一些设置…