AI先行者第四辑:AI落地铁路的快与慢

news2024/11/18 4:41:50

543c45634959089de22b81d9896109cd.gif

人工智能的模型不能解决所有的问题,它可能只能做到80%,剩下10%、20%都是靠你对项目的理解,一点点做针对性的优化。

本篇作者顾子晨,中国铁道科学研究院集团有限公司基础设施检测 研究所 高级工程师|AICA首席AI架构师培养计划第六期学员。

我们国家的高铁体系本身就是一个高科技体系,它有一部分数字化属性,在这个基础上可以打造一个更完整的数字化底座;另外,无论是铁路领域的科研还是管理,客货运输还是巡检安检等等,这个行业里充满了痛点和需求,这是有利于AI 生长的土壤。

26d6c41dd78e9d7150c1dcc7e5c4b4cd.png大模型给我们打开了一扇窗

很多人想起铁路,就会想起巡道工人,他们满面风霜,日复一日的用小铁锤敲击铁路的样子,是很多人对于铁道巡检的第一印象。

事实上,直到今天,我们仍有很多铁路是通过这种有百年历史的方式进行巡检的,而AI给了我们新的希望。

最近的生成式大模型热潮也证实了,我们铁路人把目光放在AI领域是对的,这是一个将引领时代变革的领域。我也在第一时间体验了百度的“文心一言”大语言模型。我反复尝试,除了体验革命性技术带来的冲击以外,也在寻找其与我们业务的结合点。

首先,生成式大模型在办公、客服领域应该是能最先落地的,但我希望探索在铁道巡检场景应用的可能性。然而,由于铁路行业的特殊性,它对训练数据和泛化能力的要求,其所需要的精度、准确率、召回率和一般行业应用的要求差别比较大,如果要用起来生成式大模型,将是一次艰难的“冷启动”,数据方面需要我们做更多的准备工作。

另外,目前关于如何把大模型进行垂类移植和部署的公开信息比较少,可资借鉴和学习的资料较难找到,无论是国外还是国内都比较缺乏这方面的积累。这让我们铁路系统的技术人员感到知识储备还不够。

当然,痛点就是机会。我们希望百度这样世界级的AI巨头,能够在后续的AICA课程中增添相关的内容,特别是如何进行大模型行业化落地的“干货”,是我们必需的,也是百度的强项。

总而言之,大语言模型于我们目前还有距离,但我们在AI领域和铁路结合的其它方面,已经找到了不少突破口。

加入铁科院后,我开发的第一个应用,就是智能巡检系统。

我国有超过四万公里的高铁线路,我们巡检车搜集的数据是海量的、天量的,形式也是各式各样的。有的是波形、有的是图片,还有各种不同的数据格式,这对我们来说其实是一个指向,就是除了AI是没有其它的方法可以把这么多数据都筛一遍的。通过对大量缺陷数据进行人工智能建模,可以在一定程度上自动的从图像中发现铁路上存在的基础设施缺陷,为线路维修提供数据支撑。

所以,哪怕AI在某些方面,比如看波形方面还不成熟,但我们相信这个方向是对的。我们一定会找出用AI去筛波形的算法,我们绝大多数的数据都是可以通过AI的处理,而产生更高的效率和效益的。

再讲一个更具体的,例如,100公里的巡检加起来大概有几十万张图。而几十万张图,肯定是纯人工看不完的。

而在使用了百度飞桨的深度学习算法后,我们逐步做到,先把可能有问题的图的范围从几十万张缩减到几百张。在这个处理的过程中,我们自己反复试验,逐步做到80%的缺陷召回率,已经节省了极其大量的人工。

但我们当时一心追求把这个指标拉到99%甚至是100%,直到上了AICA的课程之后,又得到了新的启发。

一位授课的百度资深架构师告诉我们,他说人工智能的模型不能解决所有的问题,它可能只能做到80%,剩下10%、20%都是靠你对项目的理解,一点点做针对性的优化。这个提法给我的感受很深,就是不要对算法搞绝对意义上的求全责备,也不要追求一步到位,而是根据自增强效应逐步完善。

这时,我们就考虑,准确率和召回率是有矛盾的,如果追求前者就是找出的问题多,但里面真的有问题的可能没有那么多;如果追求后者,那就是找出来有问题的多,但可能有大量的被遗漏了,两者必居其一。

所以,最后就选择了优先找出有可能有问题的,而不是优先更准确的找问题,因为我们的铁路安全是第一性的。AI帮你做到不管多高的精度,最后都要人工确认的。这也说明了,在当前这个阶段,人机在一个特定的精度点上一定会产生合作,而不是AI无所不能。理解了这个我们就可以对一些问题释然、对一些问题去找别的方法,而不是纠结最后小数点后那几位数字。

而事实上,通过一再优化,100公里的数据用AI跑过以后,可能最后只要一个人用3、5分钟把这波结果再筛一遍,就基本是万无一失了。而这已经极大的提升了效率。

这就是AI给我们强大的赋能的第一步,它打开了我们的格局和视野。

6a9b58e29671d48d9e110b25a618cc71.pngAI已经在铁路系统热起来了

由于我们的业务属于铁路的核心场景之一,随着我们把AI在巡检和检测上的应用推广开来,在行业里引发了AI应用的小高潮,也起到了一定的示范和牵引作用。

我们铁科院一直有一个基本方针,就是“ 一切为科研,科研为运输 ”,这句话是茅以升先生在创院的时候说的,所以,我们一直很重视科研的价值。

但我们不能漫无方向的发力,通过在AICA的学习,我们沉淀了几个方面的痛点清单,作为我们持续发力的方向。

第一个困难,就是如何建立一个覆盖铁路的AI全生态

我认为这样一个生态是很难建立的,不是一次策划、一个规划就能解决的,它得是很多团队多年努力的结果,然后是自然而然的形成生态的。

第二个困难,行业场景的特殊性需要一个个攻破

铁路系统行业性极强,这个问题,肯定不止一个行业跟百度反馈过。虽然现在百度飞桨已经有几百种优秀的模型,但很多模型是在实验室里,或者百度这种AI前沿生态圈里诞生的,虽然也是企业做的,但和我们这种生产性 企业还是有落地适用性的问题。

第三个困难,AI人才的问题

在某一条线路可以实现的能力并不是可以立刻复制到全国所有的18个铁路局、4万公路的高铁线路、全国十几万公里的普速线路上面的。每个地方的情况都是不一样的,你想做一个通用的东西,难度是巨大的。所以我们不是典型的一个方案解决所有问题的行业,我们的行业太复杂了。

所以我们需要海量的、多层次的AI人才,但从体制的角度讲,铁路有自己的特殊性,在AI人才培养搭建上,和很多企业是截然不同的。

7edd62525fced51914676e09d8d81eef.png解决之道与远景期待

对于上面的困难,我们也进行了系统性的对应思考。

首先,我认为在铁路体系内搭建一个AI生态是很难的,我们不能贪大求全,一心去找规模大、知名度高的领域做切口,而要耐心的沉下心来解决问题。

对于未来AI在整个铁路系统的普及,应该是要“滚雪球”,但不是一个球,而是若干个球一起滚,中间不断会有两个雪球合并成一个,最后撞线的那个最大的就是生态化的基础,就是不同系统、不同诉求的最大公约数。这个例子最能说明我们系统里AI普及的方式。

其次,我们需要更多的百度的优秀AI大牛多去我们那里,最好呆一个比较长的时间,去深度体察和发现痛点。

我们自己研究AI的时候经常遇到的问题⸺一个数据集,用不同的方法处理,会带来截然不同的结果。总结的经验是,如果你没有亲手处理过行业场景的具体数据,带着一种大而化之的态度,想进一步做出成熟的方案来,是很难的。

打一个通俗的比喻,就算我们带着百度的工程师把铁路场景数据标注出来的坑都“看一遍”,也还是不够的,这坑得自己本人踩过才真的有效。就像疫苗一样,一定是产生了免疫反应才能留下“记忆”,看过、听过都不如做过,是截然不同的。

而相较于AI来说,铁路有几百年的历史了。包括我们这些业内人士,做算法、做模型的时候,也是走了特别多的弯路。所以我们也希望百度的技术工程师走进铁科院,对行业特性、对经验教训有个慢慢的了解过程后,帮助我们发现更多问题,解决更多问题。

我相信只要真的经历过,以百度的AI水准,一定可以把这些经验和教训慢慢地转化成通用的方法论,为后面陆续解决行业的问题建立一个理论上的制高点,前提就是这个坑要趟过、这个事情得有人做过。

最后,铁路AI人才的培养,要利用各种有利条件,小步快跑。

很多AICA同学提出AI人才是从底层生长的,但铁路系统未必适用,因为铁路的“底层”实在是太深了。

铁路是一个庞大的、微利甚至亏损的系统,带有鲜明的基础设施属性。这就决定了,铁路的体制、机制、薪酬,是不可能每个铁路局都招聘、长期养着一批算法工程师的,这个绝无可能。当然,这不表示各个路局不做AI研发,它可以通过专门的项目经费,通过第三方去解决一些单点的、阶段性的需求。

所以铁路的特点就是除了铁科院这样的中央研究体系,系统里AI人才的富集度是很低的,能学会应用就不错了。这也间接的回答了前面的问题,就是为什么要滚雪球,为什么要自然生长,因为没有人为的一次性自上而下就解决问题的可能性,主客观都不存在。

但即使有这些困难,我们对未来还是充满信心。首先我们国家的高铁体系本身就是一个高科技体系,它有一部分数字化属性,在这个基础上可以打造一个更完整的数字化底座;另外,如前所言,无论是铁路领域的科研还是管理,客货运输还是巡检安检等等,这个行业里充满了痛点和需求,这是有利于AI生长的土壤。

而从目前来看,随着AI技术的快速发展,将让这片土壤更加肥沃。而且,我们已经开始了尝试,例如利用生成式大模型能力完成一些智能编码类的工作,已经能极大的提升代码工作效率,这就是新的技术带来的变化。

我们希望未来百度能更多的参与到与我们共创和合作中,我们也相信铁路丰富的场景和环境,也一定会回报给百度,特别是飞桨生态,以及百度的智能交通等业务板块很多的收获。

cce1b41ec7e24646fa3b07b7708640ec.png

相关链接

点击下方链接或阅读原文,即刻报名了解百度AICA首席AI架构师培养计划第八期。

百度 AICA 首席 AI 架构师培养计划第八期

71985395dc6d0378976172d913fd2782.png

7c152b0a787af0c688652eb5578948c1.jpeg

3294ad9e9806e4f1284a466cd73c9ccc.jpeg

70b98f4ab1f3e4be46f2a5ca1f441d45.jpeg

6816501d21d23f9425f6e5ad9730beff.gif

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1253152.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[蓝桥杯训练]———高精度乘法、除法

高精度乘法、除法 一、高精度乘法⭐1.1 初步理解1.1.1 高精度的定义1.1.2 为什么会有高精度1.1.3 高精度乘法的复杂度 1.2 思想讲解1.3 代码实现1.3.1 声明1.3.2 实现高精度乘法1.3.3 整体实现1.3.4 代码测试 二、高精度除法⭐2.1 初步理解2.2 思想讲解2.3 代码实现2.3.1 声明2…

ubuntu20.04配置OpenCV的C++环境

ubuntu20.04配置OpenCV的C环境 这里以opencv-3.4.16为例 复现https://github.com/raulmur/ORB_SLAM2此项目,需安装opencv及其他依赖,可见README.md详情 1.下载opencv源代码 https://opencv.org/releases/ 2.下载OpenCV的扩展包opencv_contrib&#x…

免杀原理(php)

免杀原理 0x01 前言 何为免杀,免杀就是一种逃脱杀毒软件查杀的方法,免杀的目的就是绕过“墙”,去执行危险的操作。那么如何绕过这堵“墙”,就是免杀的本质。有句俗话说得好“知己知彼,百战不殆”,想要用好…

【Vulnhub靶机】Jarbas--Jenkins

文章目录 信息收集主机发现端口扫描目录爆破 漏洞探测whatwebhash-identifierwhatweb 文档说明:https://www.vulnhub.com/entry/jarbas-1,232/ 靶机下载:Download (Mirror): 信息收集 主机发现 扫描C段 sudo nmap -sn 10.9.75.0/24端口扫描 sudo nma…

通过视频文件地址截取图像生成图片保存为封面图

安装 RPM Fusion 软件库 FFmpeg并不包含在 CentOS 官方软件库中,需要使用第三方软件库安装。可以使用 RPM Fusion 软件库来获取 FFmpeg。 首先,使用以下命令安装 RPM Fusion 软件库: sudo yum install epel-release -y sudo rpm -Uvh https…

BTC 复兴:Ordinals 带来创新活力,BitVM 与 BitStream 相继问世

除了备受瞩目的 ETF,今年 Bitcoin 生态迎来全新的发展活力和机遇。Ordinals 协议的横空出世,以此为基础诞生的 BRC20 协议给整个比特币生态带去了一波新的能量,迎来铭文热度高涨。而诸如 BitVM、BitStream 等新技术甫一问世,便引发…

vulnhub6

靶机地址:https://download.vulnhub.com/evilbox/EvilBox---One.ova 准备工作 可以先安装 kali 的字典: sudo apt install seclists ​ 或者直接输入 seclists​,系统会问你是否安装,输入 y 即可自动安装 733 x 3751414 x 723 ​ 默认路…

引用、动态内存分配、函数、结构体

引用 定义和初始化 **数据类型 &引用名 目标名;**引用和目标共用同一片空间(相当于对一片空间取别名)。 引用的底层实现:数据类型 * const p; ------> 常指针 int const *p; -----> 修饰 *p const int *p; ----->…

解决github无法访问的办法

方法/步骤 1.问题描述:能联网但不能访问github.com 2.找到hosts文件。地址:C:\Windows\System32\drivers\etc (一般是在这的) 3.不要直接在这修改hosts文件,需要将hosts文件复制粘贴到桌面(或其它地方自…

Oracle 中的操作符

1.union:对两个结果集进行并集操作&#xff0c;不包括重复行&#xff0c;同时进行默认规则的排序&#xff1b; SELECT * FROM emp WHERE sal < 1500 UNION SELECT * FROM emp WHERE sal BETWEEN 1000 AND 2000 order by 1 2.union All&#xff1a;对两个结果集进行并集操…

Innux(特殊位与权限)

特殊位与权限 目录&#xff1a; 1. SUID 2. SGID 3. SBIT 4. 文件系统属性chattr权限 5. 管理员权限sudo 1. SUID 1.1 什么是SUID SUID只对二进制可执行文件才有效&#xff08;文件必须具备x权限&#xff09; 执行者对该程序有 x 权限 当前程序拥有SUID时&#xff0…

nova组件简介

目录 组件关系图 controller节点 openstack-nova-api.service: openstack-nova-conductor.service: openstack-nova-consoleauth.service: openstack-nova-novncproxy.service: openstack-nova-scheduler.service: openstack-nova-conductor.service详解 作用和功能&…

4.25每日一题(通过被积函数和积分区域(不等式)选正确的坐标系求二重积分)

一、正确画出积分区域&#xff1b;通过积分区域和被积函数选择方法 二、如何根据被积函数和积分区域正确选择通过极坐标还是根据直角坐标方程计算&#xff1a; &#xff08;1&#xff09;适合极坐标的积分区域&#xff1a;圆或者部分圆 &#xff08;2&#xff09;适合极坐标的…

续新的SSL证书

一、重新申请证书并下载证书&#xff1a; https://www.ename.net/ 二、IIS中在【服务器证书】中删除旧的证书&#xff0c;导入新的证书&#xff1b; 三、在站点的绑定选择新证书&#xff1b;

万字解析设计模式之责任链模式、状态模式

目录 一、责任链模式 1.1概述 1.2结构 1.3实现 1.4 优缺点 1.5应用场景 1.6源码解析 二、状态模式 2.1概述 2.2结构 2.3实现 2.4优缺点 2.5应用场景 三、责任链模式实验 任务描述 实现方式 编程要求 测试说明 四、状态模式实验 任务描述 实现方式 编程要…

2001-2022年上市公-供应链话语权测算数据(原始数据+处理代码Stata do文档+结果)

2001-2022年上市公-供应链话语权测算数据&#xff08;原始数据处理代码Stata do文档结果&#xff09; 1、时间&#xff1a;2001-2022年 2、指标&#xff1a;企业代码、股票代码、年份、股票简称、上市公司前五大供应商的采购额之和占企业当年总采购额的比例、上市公司前五大客…

林业无人机如何提升巡山护林效率?

在郁郁森林之上&#xff0c;一架无人机正盘旋在上空时刻观察着林区的情况。凭借复亚智能的全自动巡检系统&#xff0c;无人机巡山护林的巡视范围和反馈实时性得到了显著提升。 一、林业无人机&#xff1a;科技赋能森林防火 秋季林区时常发生火灾&#xff0c;林业无人机在森林防…

关于自动化测试的误区,你屡清楚了吗?

自动化测试作为软件测试的一种技术手段&#xff0c;时常被大家讨论。本人在自动化技术方面有过略有小成&#xff0c;今天聊一聊关于自动化的一些误区&#xff0c;以帮助新手能正确的了解和认识自动化一些概念。 测试的行为本质是什么&#xff1f; 为什么先从这个概念开始谈起&…

Codesys 数据结构:1.2.4 扩展数据类型之联合体(UNION) 类型详解

Codesys代码代写&#xff0c;程序开发&#xff0c;软件定制&#xff0c;bug修改&#xff0c;问题咨询&#xff1a; T宝搜索店铺【林磊教育】 定义&声明 联合体就是不同类型的变量占用同一个内存的数据结构&#xff1b; 其声明语法如下 TYPE <联合体名字>:UNION<…

【Linux】驱动程序同步和异步通知方式

一、应用程序APP&#xff0c;访问驱动程序/dev/input/enent1流程&#xff1a; 假设用户程序直接访问 /dev/input/event0 设备节点&#xff0c;或者使用 tslib 访问设备节点&#xff0c;数据的流程如下&#xff1a; APP 发起读操作&#xff0c;若无数据则休眠&#xff1b;用户操…