香港“试水”医疗多模态大模型

news2025/1/22 16:45:22

图片

更好地引入及发掘行业数据有望为垂直领域内的多模态大模型开发提供新可能。中国香港特区传统科研优势要嫁接产业风口,国际化渠道如何与内地资源携手?

产业多模态大模型“风头”正盛,在积极寻找经济新动能的中国香港特区,相关产业生态亦在试图把握机遇。

近期较有声量的一个微观案例,与特区政府作为重点突破方向的生物医药行业相关。3月11日,中国科学院香港创新研究院人工智能与机器人创新中心(下简称“中国科学院香港创新院AI中心”)在港发布了其面向医疗垂直领域的AI多模态大模型——CARES Copilot 1.0。

在国际医学大模型测评榜单结果中,目前其有多项指标在国际排名中位居第一位,令业界看到了香港在垂直领域内把握新机遇的可能。

与单模态相比,所谓多模态大模型可同时处理文本、图片、音频以及视频等多类信息。因其与现实世界的融合程度更高,更符合人类接收、处理和表达信息的习惯,故而被认为能够与人类更加灵活地进行交互,执行更大范围的任务。也正因如此,多模态大模型被认为有望帮助技术向通用人工智能(ACI)的发展目标更近一步。

再从商业角度衡量,因强调技术与业务的融合、以此推动行业数字化转型和智能化升级,借此真正实现业务效率的提升,也使得多模态大模型的商业价值被不断提升。业界的期待与想象空间,亦被不断拓展。

与海外公司相比,目前中国内地的大模型厂商亦在努力提升其多模态大模型在多元信息环境下实现“多专多能”的能力,并在垂直领域内寻找应用场景及市场价值。以医疗赛道为例,香港有何产业土壤与具体优势?

宏观而言,培育生命科学及医疗、新材料等新兴及未来产业,是香港特区政府近年来发展“新质生产力”的重要一环。但当地亦存在规划到微观落地间有多重瓶颈难题,突破不易。作为中国科学院于2019年在香港特区设立的首个国家级新型研发机构,前述AI中心正在寻找扎根香港创新及产业土壤的新路径。

以其架构为例,相关研发旨在加强香港与内地科研合作。既吸引全球人才,亦为香港培养青年研究人员和学生。具体到CARES Copilot 1.0大模型开发,则能跨境涵盖了北京协和医院、广州中山大学附属第一医院,以及香港威尔斯亲王医院等多家医疗机构。

“虽然有这样那样的声音,比如研发不对接产业、很难转化。但香港的传统科研优势依然存在。能感受到的是其科研体系的原创性思维很强,且国际化地位依然存在。”中国科学院香港创新院AI中心执行主任刘宏斌在港接受《财经》记者专访时指出。针对垂直行业大模型技术发展与难题、香港如何把握机遇等一系列话题,以下为其观点的核心内容:

《财经》:能否简单介绍一下CARES Copilot及其涵盖领域包括哪些?

刘宏斌: CARES Copilot是一款专为医疗领域设计的大型模型系统,能与智能医疗设备高度集成,可有效支持包括手术中实时影像智能识别、MRI/CT/超声等多模态配准、内窥镜下场景理解、器械与解剖结构分割、器械检测与计数、手术室摄像机下医生行为监督等功能。

简言之,其可超越一般教学的要求,应用在临床、手术室及研究院,直接辅助前线医护面对突发状况,督导、预警、防止手术步骤危险。此外,手术大模型和手术导航结合起来,也可为术者提供实时的解剖定位信息,提高手术安全性。

《财经》:医疗领域涉及的环节及信息形式多重多样,是否决定了其必须采用多模态的方式开发大模型?

刘宏斌: 没错。医学领域内的数据是以多模态形式存在的。除作为文本的病历,还有影像,比如脑电图和心电图。数据形式多,来源也很庞杂。以前的技术探索在一些单点方面取得了一定进展。但要应对大量辅助诊断甚至介入治疗需求,就要把所有信息集合在一起进行处理并得出结论。即使是医生,也不会依靠单一信息来源就下结论做手术,一定会综合所有信息。

《财经》:所谓以前的技术探索指哪些?在大模型这一概念热门之前,业界进行过哪些尝试或技术储备?

刘宏斌: 医学技术一直是在不断尝试和演进提升的。比如医疗领域的数字化和智能化,其实就一直在进行。一个比较著名的“失败”案例,就是IBM十多年前就推出的人工智能医疗诊断产品沃森(Watson)。虽然其并没有给医学界带来所谓“彻底”的革命,但其实还是一种有益的尝试。

要提升医疗行业效率,肯定要进行数字化革新。以做手术为例,为提高医生的能力,技术要介入的前提是标准化。与生产线相比,手术肯定是更加复杂、不可控因素更多,需要医生的智慧和解决问题的能力。但随着信息和技术的不断迭代,人工智能的参与程度会越来越高。

《财经》:大模型对这个领域的数字化提升与改造将起到哪些作用?

刘宏斌: 大模型使之前看似无解的问题有了突破口,比如通过大模型把多模态数据结合在一起并生成结论。起码在数据联通和数据输出领域内,数字化是看到希望了。

我们也并不是从零开始的。团队中很多人之前有很多年的深耕经历。比如专有图像算法、人体识别技术。因为有垂直领域的技术,才能更好地把算法和大模型进行交叉融合。

以CARES Copilot为例,目前1.0版本主要是以识别和辅助医生功能为主,把识别做准确了,才有可能去辨别手术当中作出的判断是否准确。在此基础上,我们也在利用大模型的抽象理解能力去判断手术到了什么阶段。此外,还可进行关键解剖结构识别,把一些关键的解剖结构的识别率提高到80%以上。

《财经》:大模型目前公认的问题是其有时出现所谓“幻觉”。医疗领域对准确度要求会更高,怎么保证准确度?

刘宏斌: 所谓大模型“幻觉”,其实是一个涉及概率的问题。从核心上去理解目前大模型的框架,其运行原理是基于概率统计来进行。但一旦涉及到概率,就一定会有出错的可能性。

具体到应用层面,要从不同的维度去衡量准确度。比如在大模型的回答方面,我们通过附加增强知识检索技术及与专家的知识库相结合,目前对相关问题回答的准确率已达到95%以上。这其实已经是一个基本可用、可接受的状态了。毕竟现实中的临床医生也是人,也没办法做到100%的准确。

《财经》:怎么理解这种附加技术及与专家知识库相结合?

刘宏斌: 相当于是打造一个人为的“紧箍咒”吧。比如CARES Copilot的基础之一,是以Meta公司开发的大语言模型Llama 2.0为基础,也结合了内地一系列大模型产品的技术。这些基础层搭建起了一个能“听懂话”的小白,为把其训练成垂直领域的专家,就要把相关的知识、技术灌入其内。

在这个意义上来看,可把大模型理解为一个海量信息的压缩工具。相关知识与不同类型的信息被压缩、分类整理后,被储存在一个相对可控的模型当中。在需要调用时,大模型又相当于是一个可以覆盖不同数据类型的桥梁,把所需的信息输出给医生。

在这个基础上,为避免大模型生成过程的“黑盒子”、不知其所以然状态,提升结果的准确度,我们要纳入一个新的逻辑框架。其对信息的处理是由易到难并且可追溯的,所以这个框架本身是可解释的,在此基础上我们也建立了一个专家知识的库,配合以一种增强检索的技术,“多管齐下”去保障准确度。

《财经》:这个数据的输入、压缩、整理并准确输出的过程存在哪些困难?比如算力会不会是制约?

刘宏斌: 算力肯定是各家做大模型的公司都面临的普遍共性问题,特别是在算力竞争越发激烈的当下。即使在中国香港特区,我们也没办法与英伟达等公司合作,现在采用的是华为的算力基础。应看到国内业界正在快速迭代和升级过程中。

此外,垂直领域大模型发展的核心问题,还包括如何真正有效的把多模态数据整合在一起,多模态融合进行判断。现在有很多科研尝试,但不是很完美。

再一个就是数据来源的问题,垂直领域肯定无法像互联网所提供的那么多。怎么用一个比较小的数据量去训练大模型,就需要把一些特定领域的知识和通用大模型的训练方法相结合,在这个过程中深度结合专家的作用就很关键。但和ChatGPT、Sora相比起来,因为数据量没有那么大,所以表现就不会那么令人惊艳。

是否通过人为从结构上进行介入(比如有意识地将医疗领域内的规范知识、公式等注入)而不是通过投喂海量数据自己演化的方式进行开发,其实目前也存在不同的技术演进路线。是纯数据驱动,还是结合人为知识让模型变得可解释化。我们团队的经验是如果能有效注入,对模型表现的提升就会很明显。

《财经》:CARES Copilot的开发及试验至少涉及到内地和香港的多家医院,是不是也会对数据的获取有一定的障碍?

刘宏斌: 其实还好,我们采取的方法是把模型在一家医院训练完成后,不拿数据的再放到另外一家医院去进行训练。这样就能把多家医院的数据用起来,但是不让数据流出。既提升了数据量,又保护了隐私。

《财经》:回到CARES Copilot的开发,为什么选择在香港设立中心?香港的产业环境对大模型的开发有哪些助力?

刘宏斌: 中国香港特区是国际化的城市。中国科学院在这里成立香港创新院AI中心,目标就是科研国际化的发展。在此之前,外界对香港科研的一个认识是教授们的原创创新比较有优势,科研体系比较国际化。但往往缺乏一座桥梁,无法把研发人员的成果转化成产业。我们真正在这里落地之后,希望起到桥梁的作用,所以也开始组织大湾区的教授、资源进行对接。教授们的想法可谓是“天马行空”,的确有很多跟内地不一样的地方,有的还可以说很“疯狂”,但启发也很大。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1840811.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

onnx进阶算子优化

一、定义 如何保证pytorch 模型顺利转为onnx. 前言pytorch 算子是如何与onnx 算子对齐的?Asinh 算子出现于第 9 个 ONNX 算子集。PyTorch 在 9 号版本的符号表文件中是怎样支持这个算子的?BitShift 算子出现于第11个 ONNX 算子集。PyTorch 在 11 号版本…

QT——信号和槽

一、信号的概念 信号成员会在满足一定条件时某个对象自动触发该对象的信号(触发条件可以通过QT帮助文档进行查看每个类中标示了signals的栏位),触发后程序会调用与信号相连接的槽函数。 二、槽函数的概念 Qt中的槽函数(Slot)是与信号(Signal)对应的概念,用于接收信号…

TIME_WAIT的危害

前言 该文章主要讨论下TIME_WAIT的存在意义和潜在危害,以及解决措施。 具体内容 首先看一下下面这幅图 这幅图来自《TCP IP详解卷1:协议 原书第2版中文》TCP状态变迁图。 TIME_WAIT存在意义 可靠的终止TCP连接。 保证让迟来的TCP报文有足够的时间被…

spring中@Conditional

多环境切换 java配置使用profile Profile设置在某个环境下,spring注入对应的bean public class JavaConfig {BeanProfile("dev")DataSource devDs(){DataSource ds new DataSource();ds.setUrl("dev");ds.setUsername("dev");ret…

Win11 删除文件时提示“找不到该项目,请重试”的解决办法

1、Win R 打开运行窗口,输入 notepad 并回车打开文本文档(记事本)软件,如下图: 2、在文本文档(记事本)软件中复制粘贴以下代码,如下图: del /f /a /q \\?\%1 rd /s /q \\?\%1或DEL /F /A /Q \\?\%1 RD /S /Q \\?…

基于SpringBoot+Vue农产品管理与销售APP设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍:✌全网粉丝1W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码数据库🌟 感兴趣的可以先收藏起来,还…

python 版本切换,更换当前默认版本

电脑可以安装多个版本,但是好像没有正规的维护python版本的工具,比如前端就有nvm切换node版本,但是python我没找到比较好的(有大佬知道路过方便留言一下,跪谢。。) 废话不多说,更改默认版本很简…

反射复习(java)

文章目录 反射机制的作用反射机制的原理加载机制详细解释 获取 Class 对象反射获取构造方法:获取 Class 对象里面 Constructor 对象反射获取成员变量:获取Class 对象里面的 Field 对象反射获取成员方法:获取 Class 对象里的 Method 对象其他常…

融合创新,共筑未来 | 人大金仓为轨道交通发展注入新质力量

METROTRANS 2024 6月13日~15日,以“多元融合 高质量可持续发展”为主题的2024北京-南京国际城市轨道交通展览会暨高峰论坛在南京国际博览中心隆重举行。人大金仓受邀亮相本次大会,展示了其在轨道交通的创新应用和解决方案。 ‍点击视频 直击现场‍ 规模最…

机器学习课程复习——奇异值分解

1. 三种奇异值分解 奇异值分解(Singular Value Decomposition, SVD)包含了: 完全奇异值分解(Complete Singular Value Decomposition, CSVD)紧奇异值分解(Tight Singular Value Decomposition, TSVD&…

年终奖发放没几天,提离职领导指责我不厚道,我该怎么办?

“年终奖都发了,你还跳槽?太不厚道了吧!” “拿完年终奖就走人,这不是典型的‘骑驴找马’吗?” 每到岁末年初,关于“拿到年终奖后是否应该立即辞职”的话题总会引发热议。支持者认为,这是个人…

GLSB是什么?带你深入了解GLSB核心功能

伴随互联网的快速发展,大型企业等组织单位通过建设多数据中心,以提升用户体验。然而想要在多个数据中心实现流量的智能管理,提高网站的可靠性和可用性,则需要全局服务器负载均衡技术——GLSB的助力。GLSB是什么?它又有…

笔记本系统盘移植与windowsLinux双系统安装

目录 一、 前言二、 Windows系统移植二、 安装Linux三、 Windows分区配置 一、 前言 笔记本内存不够了,之前给笔记本添加了一个机械硬盘,也几乎爆满了,于是购置了1T的固态硬盘,打算用这个固态硬盘安装双系统,剩余空间…

【雷丰阳-谷粒商城 】【分布式高级篇-微服务架构篇】【11】ElasticSearch

持续学习&持续更新中… 守破离 【雷丰阳-谷粒商城 】【分布式高级篇-微服务架构篇】【11】ElasticSearch 简介基本概念ElasticSearch概念-倒排索引安装基本命令ik 分词器SpringBoot整合测试存储数据:测试复杂检索同步与异步调用 参考 简介 Elasticsearch 是一…

【UE数字孪生学习笔记】 Apifox一体化接口测试平台

声明:部分内容来自于b站,知乎,慕课,公开课等的课件,仅供学习使用。如有问题,请联系删除。 部分内容来自UE官方文档,博客等 Apifox接口测试 Apifox 是集 API 文档、API 调试、API Mock、API 自动…

DDMA信号处理以及数据处理的流程---距离速度测量

Hello,大家好,我是Xiaojie,好久不见,欢迎大家能够和Xiaojie一起学习毫米波雷达知识,Xiaojie准备连载一个系列的文章—DDMA信号处理以及数据处理的流程,本系列文章将从目标生成、信号仿真、测距、测速、cfar检测、测角、目标聚类、目标跟踪这几个模块逐步介绍,这个系列的…

腾讯《地下城与勇士:起源》手游在部分安卓平台停止更新

原标题:因合约到期 《DNF手游》停止安卓平台更新 易采游戏网6月19日消息:《地下城与勇士:起源》(简称DNF手游)官方今天公告,因合作协议到期,自6月20日起,该游戏将不再在某些安卓应用商店提供。腾讯公司已经…

OpenAI 发布多模态 GPT-4 模型,会开创哪些新的研究方向?

作者:JioNLP 链接:https://www.zhihu.com/question/589640227/answer/2936760622 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 短期看,GPT4 就是个终结者 。开创不了什么新的方…

Redis学习|Jedis、SpringBoot整合Redis

Jedis 我们要使用Java 来操作 Redis,知其然并知其所以然,授人以渔!学习不能急躁,慢慢来会很快!什么是Jedis 是 Redis 官方推荐的java连接开发工具!使用java 操作Redis 中间件!如果你要使用 java操作redis,那么一定要对Jedis 十分的熟悉! 1、…

C++初学者指南第一步---7.控制流(基础)

C初学者指南第一步—7.控制流(基础) 文章目录 C初学者指南第一步---7.控制流(基础)1.术语:表达式/语句Expressions表达式Statements语句 2.条件分支3.Switching(切换):基于值的分支4.三元条件运算符5.循环迭代基于范围的循环   C…