数据智能产业创新服务媒体
——聚焦数智 · 改变商业
4月27日,亚马逊云科技医疗与生命科学行业峰会在上海盛大召开,会议汇聚了业界专家和思想领袖,共同探讨行业数字化转型和创新之道。
“医疗及生命科学”是人类社会永恒的命题,科学技术的不断发展为现代医学研究提供了新的视角与解决办法。
自2013年以来,亚马逊云科技就已经在全球范围内成立专业医疗以及生命科学行业的团队。2013年至2023年的十年间,亚马逊云科技服务了全球超过4200个医疗和生命科学行业的客户,包括像辉瑞、拜耳、罗氏、默沙东、GE、飞利浦等头部企业。全球前十大医药企业中有9大药企选择亚马逊云科技。在中国,亚马逊云科技也服务了超过400家医疗以及生命科学行业的头部企业。
在长期关注生物制药,满足客户需求的过程中,亚马逊云科技发现当前及未来医疗和生命科学行业面临着三大挑战:
第一,数据量的激增,带来了洞察力的挑战。科学家发现,自然界里可能成为药物的分子个数有10的60次方,而太阳系的原子个数才是10的50次方。数据量的激增将带来研发难度指数级的增加,同时拖慢研发速度及拉高研发成本。
第二,持续而迅速的算力需求的挑战。基因测序技术在1990年的时候可能需要13年才能完成一个人的基因测序,现如今,一天内就可以完成60个人的基因测序,而每个人基因测序的成本已经降到过去90年代的百万分之一。大规模基因测序的背后,需要调用数万台虚拟服务器同时进行。另一方面,生成式AI之所以能爆发,算力的发展为其提供了基础。这些都需要调用数万台虚拟服务器同时去进行,这是对于持续和迅速的算力的挑战。
第三,客户需要解决方案而不是单一的技术服务。客户的核心诉求是不需要有专业的计算机背景就可以去使用“开箱即用”的解决方案来解决应用问题。比如,医院用的医疗信息软件有近100种,常用的就有约20,医疗机构需要适合行业用户的解决方案,不需要有专业的计算机背景也可以使用开箱即用的解决方案支持业务。
对于数据、算力、解决方案这三大挑战,亚马逊云科技是如何应对的呢?
基因测序数据全生命周期管理方案,应对激增数据
数据激增带来了用户对数据存储与数据快速自动化分析的两大需求。
根据《自然》杂志的预估,到2025年,全球会有6000万人以上会采用基因测序来诊断疾病。一个人的全基因组数据量通常会超过50GB,2025年一年基因数据的增长就会超过40EB(1 EB=1024GB*1024*1024)。
因此,如何实现数据安全、高效、低成本的存储,是一个急需解决的问题。
对于数据快速自动化分析,大家可以想象“大家来找茬”的游戏,两张图放在一起比较,我们很容易发现其中的异同和关联,但当图片数量达到上亿张,人力识别已到极限,依托计算机自动化数据分析是必然的解决方案。否则再多的数据存储下来不分析,医疗数据并不会对于业务有任何帮助。
面对激增的数据,亚马逊云科技可以为客户提供基因测序数据全生命周期管理方案的指导,为基因分析不同阶段的生物信息学数据的存储、调用和分析提供更好的性价比和更高可用性。
具体来说,将基因组学数据上传到Amazon Simple Storage Service (Amazon S3)中并进行管理;使用云上分析服务对基因组学数据进行分析和处理,数据可以直接从 Amazon S3 中读取并在分析后将结果存回;使用 Amazon S3 的访问控制功能控制数据的访问权限,并将数据共享给合作研究者;以及定期备份基因组学数据以确保数据安全,并将不再需要频繁访问的数据存档到 Amazon S3 Glacier 或 Amazon S3 Glacier Deep Archive 中以降低长期存储成本。
2022年的re:Invent全球大会上,亚马逊云科技发布了一项非常重要的托管服务,即Amazon Omics(基因组数据分析)。Amazon Omics不仅可以对基因数据和多组学数据智能化地在Amazon S3(对象存储服务)里做分级存储,还内置了两种开源的基因测序的分析算法。同时Amazon Omics跟亚马逊云科技整个云平台上的数据分析服务和人工智能服务Amazon SageMaker做了紧密的集成,客户可以利用Amazon Omics完成一站式基因数据的存储、分析,并且利用机器学习将个人基因数据和更多维度的临床数据相结合,为更多个体提供个性化的服务。
以未知君生物公司为例,未知君是一家专注于专注于肠道微生态 AI 制药公司。在微生物领域,一个基因测序样本,就会消耗100G到200G的存储容量,而且随着基因测序项目的增多,每个项目都会产生海量数据,数据存储成本压力巨大。未知君生物通过亚马逊云科技提供的自动化数据生命周期管理的方案指导,将不同的数据做分级存储,归档到成本更低的存储层,既有效降低了存储成本,又有机会更好地提升分析的效率。
云上高性能计算平台,为创新药研发提速
创新药研发往往伴随着长周期、高成本、高风险,因此在新药研发领域往往有“121”的说法,即一款新药往往需要10年研发,花20亿美金,但只有10%的成功率。可谓“九死一生”。为了提升新药研发效率、提高成功率,现代创新药研发往往会采用高性能计算、机器学习、量子计算等新技术去探索,而这些也是解决算力挑战的重要途径。
计算机药物研发的流程当中有一个关键的步骤,叫虚拟筛选,就是在已知的化合物里面,通过与病毒蛋白质(靶点)的结合分析,验证某些化合物是否有机会可以成为药物。
一般来说,科学家需要筛选10亿种化合物,与目标蛋白质去做模拟结合。单核服务器需要475年才能完成,而在亚马逊云科技的平台上,24小时之内即能完成对10亿种化合物的虚拟筛选。这就是采用云上高性能计算平台去调度大规模算力资源的优势。
亚马逊云科技针对云上高性能计算的应用,打造了一系列的专门优化过的托管服务,以加速新药研发。比如为高性能计算优化过的EC2计算实例;高达400Gbps的EFA的高性能网络;支持毫秒级传输的FSx for Lustre系统;再到集群调度的管理工具Amazon PrarllelCluster,以及支持数万个任务并发处理的Amazon Batch。
此外,亚马逊云科技还能够提供行业解决方案的指导,让一些客户自主搭建一个新药研发、算力调度和监控平台。比如,蛋白质叠预测容器化方案指导,SOCA开源HPC协同合作解决方案等。
亚马逊云科技还构建了完整的量子计算生态系统,推出的“量子计算探索之药物发现方案”可提供一键部署的量子计算/经典计算混合架构,通过Amazon Braket量子计算平台调用量子计算资源进行实验,并能够与调用经典计算资源进行对比,还提供可视化报表,为量子计算在药物发现方面的应用探索新思路。
晶泰科技是国内知名的药研发独角兽,在亚马逊云科技上构建了基于高性能计算的药物筛选平台,大幅度缩短了新药研发的相关环节的时间,并且能够节省大量的运营成本。。亚马逊云科技不仅可以满足晶泰的业务对资源和成本的要求,无需购置业务所需的大型集群也可以随时调取大规模的超算资源,还可以通过提供竞价实例,达到极佳的计算性价比。晶泰科技CTO刘阳在采访中表示,“在亚马逊云科技的帮助下,我们不仅能够在云平台上快速搭建一个灵活、可扩展、易于管理的高性能计算集群,同时非常重要的是晶泰科技使用到了亚马逊非常独特的技术,EC2 SPOT竞价实例,成本可以节省50%-60%。”
快速构建创新解决方案,满足行业用户体验
对于医疗和生命科学行业用户来说,他们不仅需要云服务,还需要更多的解决方案,尤其是符合行业要求、符合客户需求的即开即用的解决方案,而不是自己从头构建。
基于客户需求,亚马逊云科技能够提供的解决方案覆盖了生物医药全流程价值链,可以帮助客户快速高效地进行各种药品和医疗设备的研发、试验、制造、商业化以及后续的使用监控,同时满足严格的合规要求。
亚马逊云科技将客户分为构建者和采购者,构建者希望基于亚马逊云科技的技术,快速搭建属于自己的解决方案;而采购者则希望聚焦业务,无需自己构建平台,往往直接采购合作伙伴的解决方案。按照客户的需求,亚马逊云科技与合作伙伴提供适合构建者、使用者、管理者个性化体验的行业解决方案,这些解决方案中有亚马逊云科技大量的合作伙伴的解决方案,比如萨力思(Scilligence)的实验室笔记本,速石(Fastone)开箱即用的高性能计算的药物研发解决方案,以及德世普安Tenthpin、德勤Deloitte等咨询合作伙伴打造的基于亚马逊云科技实施的生命科学工作负载解决方案。这些解决方案全面覆盖研究设计、临床实验、生产制造、上市推广、上市后监控和支持等生物医药的全流程价值链。
在解构亚马逊云科技服务行业用户的过程中,亚马逊云科技大中华区战略业务发展部总经理 顾凡列举了一个合作伙伴方案的案例。益体康(北京)科技有限公司是国内最专业的智慧远程心电平台及专业会诊服务提供商之一。益体康是基于亚马逊云科技的机器学习服务,打造了智能的远程心电图会诊平台。在新冠肺炎疫情刚开始的2020年1月,30天内远程会诊小程序就服务了中小医疗机构超过3600次的远程心电图的会诊,大大缓解大医院的诊疗压力,减少人员跨区流动。益体康这一方案是构建在机器学习服务Amazon SageMaker上的,使得益体康成倍地提升了AI模型训练和推理效率,大幅缩短了产品上市时间。帮助合作伙伴原本需要半年才能推出的AI模型,仅需3个月左右便完成从训练到部署上线全过程,加速应用迭代。
全方位赋能行业客户,打造生态链
对于赋能医疗和生命科学行业用户,除了解决数据、算力和开箱即用的解决方案这三大挑战外,安全合规及如何更好地利用生成式AI技术,是亚马逊云科技在未来必将面对的挑战。
对此,亚马逊云科技推出了四项重要的创新:
第一是Amazon Bedrock,客户可以通过API,访问亚马逊云科技自己的大模型Amazon Titan,以及可以访问第三方的预训练LLM基础模型。
第二是亚马逊发布了两个Amazon Titan的生成式的大型语言模型,一是文本生成,一是把文字数字化。
第三是基础设施,对于生成式AI来说,除了算力规模之外,性价比更为重要。亚马逊云科技自研的推理和训练的芯片,基于这两个芯片的实例,Amazon EC2 Trn1n和Amazon EC2 Inf2正式可用,打造最具性价比的生成式AI的基础设施。
第四是Amazon CodeWhisperer,它是一款可以实时生成代码建议的AI编程助手。
除了技术和解决方案之外,亚马逊云科技也在非常努力的去构建云端医疗和生命健康行业数字化创新的生态链。比如上海亚马逊云科技生命健康数字化赋能中心IDAC,通过卓越展示中心、智能网联云平台、行业俱乐部、全球合作计划等若干个方面为我们的企业赋能。
顾凡表示:“我们一直强调,合规是一切的基石,而生成式AI的出现,值得各位和亚马逊云科技一起探索其在医疗与生命科学行业的应用场景。目前,亚马逊云科技不仅提供覆盖全球的云基础设施以及超过200大类的云服务,更重要的是,我们深刻了解行业需求,不断地丰富和拓展行业数字化创新生态链,并围绕数据、算力和体验等需求与合作伙伴们一道为客户推出了诸多顺应行业发展趋势的、端到端的解决方案。”
文:木阳 / 数据猿