5月25日,国内互联网医院、慢病管理平台医联今日正式发布了自主研发的基于Transformer架构的国内首款医疗大语言模型——MedGPT。
与通用型的大语言模型产品不同,MedGPT主要致力于在真实医疗场景中发挥实际诊疗价值,实现从疾病预防、诊断、治疗、康复的全流程智能化诊疗能力。
医联MedGPT目前的参数规模为1000亿,预训练阶段使用了超过20亿的医学文本数据,微调训练阶段使用了800万条的高质量结构化临床诊疗数据,并投入超过100名医生参与人工反馈监督微调训练。
现阶段,垂直医疗大模型难在以下几个方面:
医疗行业数据质量不高
医疗数据的质量相对较低,甚至存在一些不准确和不完整的情况,这影响了大模型的学习和预测表现。
数据量不足
与其他行业相比,医疗行业的数据量相对较小,且医疗服务的数据过于碎片化,这对于建立大型模型的准确性和灵敏度可能带来挑战。
数据隐私和安全
医疗数据涉及个人隐私和敏感信息,管理和保护这些数据的安全性和隐私性是一个重要问题。
医疗行业的缺乏标准化
医疗行业的数据和工作流程缺乏标准化,不同医疗机构采用不同的系统,每个系统标准不用,这使得不同机构之间的数据共享和协作可能变得复杂和困难。
实时性要求高
医疗数据有时需要快速响应和处理,对模型的实时性和实时性能提出了更高的要求。
复合型人才短缺
对于“AI+医疗”这一专业性极强的交叉领域,对复合型人才的需求极大。医疗专业的知识本身非常精细,再加上与算法的深度融合,AI医疗对人才综合能力要求甚高。
AI医疗大模型需要强大的数据支持,而标注数据是构建模型所必需的一种数据,它们对于AI医疗大模型有着重要作用。
标注数据对于提高AI医疗大模型的性能至关重要。通过对标注数据的分析、训练和验证,AI医疗大模型可以更准确地识别患者的病情,为医生制定更精准的治疗方案提供有力支持。医疗机构可以更好地控制数据的质量和一致性,减少数据偏差,进而提高模型的精度和可解释性,训练出更准确、更精细的模型,为患者提供更好的医疗服务。
景联文科技是AI基础数据行业的头部企业,拥有大量高质量的医疗数据储备。拥有相关医疗知识文本100G,涵盖不同医学领域的最新研究成果;拥有大量专业医学论文,来自于国内外多方搜索平台、40多家专业高校合作资源以及40多家国内外专业医学组织协会合作;拥有100G的高分辨率和准确性医学图像,包括了各种医学影像,如CT、MRI、超声等,能让AI医疗大语言模型更好地学习和诊断,更好地了解和模拟医患沟通、诊疗流程等情景,提高AI医疗大语言模型诊断的准确性和效率。所有数据都经专业医学人员标注质检,保证数据的高质量。
景联文科技拥有丰富的医学专家资源,医疗领域专家可对垂直领域数据信息进行全方位标注,保证数据质量,满足当前标注需求。
景联文科技拥有5000名标注经验丰富的专业医学生团队,与10所专业医学院校达成深度合作,拥有丰富的图像和文本标注经验,可为大模型医疗提供图像和NLP相关数据采集和数据标注服务,根据客户需求调配相关标注员为其提供服务。
景联文智能医疗标注平台支持多种类医疗数据标注,可为AI医疗大模型提供丰富化、精准化、结构化的医疗知识,为医疗数据定制标注服务提供了更加科学、准确的保障。
景联文科技|数据采集|数据标注
助力人工智能技术,赋能传统产业智能化转型升级
文章图文著作权归景联文科技所有,商业转载请联系景联文科技获得授权,非商业转载请注明出处。