信息工程人员操作数据库
一、国外数据库在医疗系统中的困境
(一)数据分散与难以整合
在美国,分散式医疗服务成为癌症研究数据库优化的巨大障碍。患者先在社区接受肿瘤科医生常规检查,再到学术医疗中心进行尖端治疗,然而就诊记录无法电子衔接。患者的合并症、处方药、家族病史和既往诊断等信息零散,人工汇总耗时且昂贵。
今年一项针对一千万人的研究挖掘了美国军事人员庞大医疗数据库,但现今大部分癌症数据库存在缺陷。样本量少且缺少患者既往病史,导致难以揭示潜在风险因素和解释疾病发展变化。很难确定少数族裔群体癌症患者的特有风险因素,黑人男子患前列腺癌的可能性比白人男子高出一半,且死于前列腺癌的可能性是白人男子的两倍,但没有大型且多样化的数据库,就无法确定导致不同群体患癌风险增加的独特因素。
理想化的癌症数据库应汇集数百万知情同意参与者的数据,包括不同族裔和社会经济地位人群自癌症诊断时的信息,并通过自动链接完整医疗记录获取病史。但目前没有数据库符合要求,即使是历史悠久的数据库规模也相对较小且往往只收集患者诊断时的信息。英国生物银行和布罗德研究所的计划虽有联系癌症诊断与患者病史,但参与者需自愿注册登记并提供多项数据且接受反复医疗评估。
要汇集大规模信息,癌症研究界必须利用能连接数据的技术,如使用加密标记替换可识别个人信息并跨数据库连接个人记录。这项技术广泛应用于制药行业并连接医院医疗记录与私人健康保险索赔系统。建立大规模数据库需要学术机构、政府和公众的支持,美国政府应将癌症数据库作为 “癌症登月” 计划一部分,并要求对现有数据库和临床试验采取保护隐私的记录方法。
(二)隐私与安全问题
医疗数据安全问题凸显,200 万墨西哥病患医疗数据被暴露,OpenEMR 系统存在多个漏洞,MongoDB 数据库遭暴露后任何人无需密码均可访问并编辑。美国用于医疗和休闲大麻药房的数据库支持销售系统 THSuite 也遭到数据泄露,涉及将近 30000 名用户,超过 85000 个文件被暴露,包括患者和工作人员的姓名、出生日期、电话号码等敏感信息。
印度 Jio 公司的病毒自检症状检查器核心数据库有安全漏洞,在没有密码的情况下暴露于互联网,包含数百万条日志和记录,收集了大量用户生成的自测数据,包括谁参加测试、年龄、性别、用户代理、精确位置等信息。
亚马逊被曝 47GB 的医疗数据泄露,预计至少有 15 万患者受影响,泄露的信息包括患者的血液测试结果、个人信息、医生信息以及病例管理记录等。
(三)互操作性难题
美国健康 IT 专家对建立全国性健康记录数据库的愿景表示怀疑。大型科技公司在解决美国医疗系统问题时经常遇到困难,不同机构的健康记录难以相互沟通。
区块链无法解决医疗数据的互操作性问题,虽然区块链和医疗记录的互操作性可能具有共生关系,但区块链不能提供医疗记录的互操作性,因为医疗记录的要求是跨机构界限来传达临床意图。而卫生保健行业已开始围绕快速的卫生保健互操作性资源(FHIR)作为交换数据的新标准,利用 web 应用程序编程接口(api)来提供标准接口,以便任何授权的应用程序都可以通过适当的身份验证发送和接收数据。但不同的电子健康记录(EHR)系统有自己的临床定义的实现,可能导致同样的健康信息被误解。
实现真正的语义互操作性需要大量的工作,结合区块链,FHIR 可以维护健康数据交易的安全性和完整性,但区块链对临床信息的真正语义互操作性没有帮助。
二、高质量发展对医疗系统数据库的要求
(一)智能化与高效性
在高质量发展的大背景下,医疗系统数据库的智能化与高效性至关重要。数智大城项目数智化全能医疗数据库设计系统以提供智能化、高效的医疗服务平台为目标,致力于提高城市医疗服务水平。
智能化方面,通过数据采集与存储、处理与分析,实现患者疾病预测和医疗决策支持。利用先进的数据分析技术和人工智能算法,对患者的病历数据、检查结果等进行深度分析,预测患者可能患有的疾病风险,并为医生提供个性化的治疗建议。同时,智能化的数据库系统还能够自动识别和处理异常数据,提高数据的准确性和可靠性。
高效性则体现在数据的处理速度和系统的响应时间上。医疗系统数据库需要能够快速处理大量的医疗数据,包括患者的基本信息、病历记录、检查报告等。同时,系统还需要能够及时响应医生和患者的查询请求,提供准确的信息。为了实现高效性,数据库系统可以采用分布式存储和计算技术,将数据分散存储在多个节点上,提高数据的读写速度和处理能力。同时,还可以采用数据压缩和缓存技术,减少数据的传输量和存储占用空间,提高系统的响应速度。
(二)数据整合与共享
建立统一的健康信息资源中心是高质量发展在医疗系统中的重要任务之一。以居民健康档案为核心,整合卫生业务主题、标准信息主题库和对外数据交互,能够有效解决信息孤岛问题,实现区域范围内信息的条块结合。
通过建立统一的健康信息资源中心,个人、机构和国家等各类用户都能够获得全面、准确的数据支持。对于个人用户来说,他们可以随时随地查询自己的健康档案和医疗记录,了解自己的健康状况。对于医疗机构来说,能够实现医疗数据的共享和交换,提高医疗服务的质量和效率。医生可以通过查询患者在其他医疗机构的病历记录,了解患者的病史和治疗情况,避免重复检查和治疗。对于国家来说,统一的健康信息资源中心能够为卫生政策的制定和决策提供数据支持,提高国家的卫生管理水平。
为了实现数据的整合与共享,需要建立统一的数据标准和规范。不同的医疗机构和卫生业务系统可能采用不同的数据格式和标准,这给数据的整合和共享带来了困难。因此,需要制定统一的数据标准和规范,确保不同系统之间的数据能够相互兼容和交换。同时,还需要建立安全可靠的数据交换平台,保障数据的安全性和隐私性。
(三)AI 驱动与行业深耕
“高质量发展” 概念为医疗系统数据库的发展提供了新的思路和方向。高质量发展包括分析型数据库、数据集成、数据治理以及数据虚拟化等技术组件,能够为医疗系统提供强大的技术支持。
在医疗系统中,AI 驱动的数据库能够实现智能化的疾病预测、诊断和治疗。通过对大量的医疗数据进行分析和挖掘,AI 算法可以发现疾病的潜在规律和模式,为医生提供准确的诊断和治疗建议。同时,AI 还可以实现自动化的医疗数据处理和分析,提高医疗服务的效率和质量。
行业深耕则要求数据库系统能够深入了解医疗行业的特点和需求,提供个性化的解决方案。针对不同的疾病领域和医疗场景,数据库系统可以提供特定的数据分析和决策支持功能。同时,还可以与医疗机构和科研机构合作,开展医疗数据的研究和应用,推动医疗行业的创新和发展。
三、高质量发展背景下医疗系统国产数据库的探索
(一)主流国产数据库汇总
目前常见国产数据库主要有 OceanBase、PolarDB、OpenGauss、TiDB、人大金仓、达梦、GBASE、GaussDB、TDSQL、GoldenDB 等,涵盖分布式和集中式部署,具有自主知识产权,能够满足医疗行业不同场景的需求。
这些国产数据库各具特色,在医疗行业中发挥着重要作用。OceanBase 由蚂蚁集团完全自主研发,具有金融级可靠性及数据一致性,始创于 2010 年,特点包括数据强一致、高可用、高性能、在线扩展、低成本、高度兼容 SQL 标准和主流关系数据库等。PolarDB 是阿里云自研产品,在存储计算分离架构下,为用户提供秒级弹性、高性能、海量存储、安全可靠的数据库服务,100% 兼容 MySQL 和 PostgreSQL 生态,支持分布式扩展,高度兼容 Oracle 语法,并于 2021 年正式开源。OpenGauss 是一款开源关系型数据库管理系统,深度融合华为在数据库领域多年经验,具有高性能、高可用、高安全、易运维、全开放等核心特性。TiDB 是一款定位于在线事务处理 / 在线分析处理的融合型数据库产品,实现了一键水平伸缩,强一致性的多副本数据安全,分布式事务,实时 OLAP 等重要特性,同时兼容 MySQL 协议和生态,迁移便捷,运维成本极低。
人大金仓是面向全行业、全客户关键应用的企业级大型通用数据库管理系统,适用于联机事务处理、查询密集型数据仓库、要求苛刻的互联网应用等场景,提供全部应用开发及系统管理功能,具有高性能、高安全、高可用、易使用、易管理、易维护的特点,支持所有国内外主流 CPU、操作系统与云平台部署。达梦数据库是新一代大型通用关系型数据库,全面支持 ANSI SQL 标准和主流编程语言接口 / 开发框架,其行列融合存储技术在兼顾 OLAP 和 OLTP 的同时,可满足 HTAP 混合应用场景。GBase 是南大通用自主研发的国产数据库系列品牌,包括分布式逻辑数据仓库 GBase8a、基于共享存储的数据库集群 GBase8s、多模多态分布式数据库 GBase8c 等。GaussDB 是一个企业级 AI Native 分布式数据库,将 AI 能力植入数据库内核的架构和算法中,为用户提供更高性能、更高可用、更多算力支持的分布式数据库。TDSQL 涵盖分布式、分析型、云原生等多引擎融合的完整数据库产品体系,具有金融级分布式、云原生、金融级高可用、计算存储分离、数据仓库及企业级安全等核心特性。GoldenDB 是中兴通讯旗下金篆信科研发的关系型分布式数据库产品,采用无共享架构,融入中兴通讯多年的数据库研发经验,为用户提供高可用、高可靠、可扩展的 “大数据 + 分布式数据库” 解决方案,同时提供统一的基础数据服务平台,满足 OLTP 类应用,兼顾 OLAP 数据处理要求,有利于提升业务创新能力和用户体验。
四、医疗系统国产数据库替换国外数据库的路径
采用 “业务拆分、循序渐进、先易后难” 的升级改造方法,把握用户需求和应用关注,梳理项目调研、构架规划、移植验证、上线实施、运维监控实施的五大阶段。
在项目调研阶段,达梦数据库团队对医疗系统的可行性和需求进行深入分析,包括规划和需求理解、应用特征业务场景、兼容性评估、硬件资源评估、业务痛点分析等。通过对现有服务器配置、数据库类型与架构、最大连接数、容灾备份方案、数据存量、日产生归档量等状况的调研,获取业务高峰和低谷时间段的数据库性能分析报告,为后续阶段提供重要依据。
在构架规划阶段,根据项目调研结果,为医疗系统设计适合业务场景的数据库构架。采用数据守护集群实时备机,既支撑医院业务的高可用性,同时保障容灾需求;采用数据实时同步软件,实现数据回流;采用异步备库,方便短时间内误删数据的找回,同时提高核心系统的容灾能力。
在项目移植验证阶段,开展应用移植和适配工作。包括数据迁移、数据库适配验证、应用改造优化、应用联调与测试、性能测试与调优等。由于应用适配范围涉及跨操作系统、IDE 开发平台、编程语言等,技术栈涉及广泛、复杂度高,数据库与医院共同组织接口开发专题培训,提供数据库的接口开发示例,统一发布、控制驱动版本,要求应用厂商按照生产上线标准配置数据库连接。
在上线实施阶段,做好割接上线和保障工作。包括全量增量数据迁移、数据校验、数据回流、应用割接、回退预案等。整个过程经过多次模拟演练,形成最佳的割接方案。
在运维监控阶段,重点在于系统监控维护和优化。涵盖全链路监控体系、快速响应机制、问题管理、安全管理、应急预案等方面。通过 “需求驱动研发” 的方式,达梦数据库的产品在真实的医疗业务场景中得到了锻造与改进。
五、医疗系统国产数据库的优势
(一)自主可控与全栈国产兼容
国产数据库在医疗系统中展现出强大的自主可控能力和全栈国产兼容性。
国产数据库的自主可控意味着医疗数据的安全性得到了更好的保障。在当前的国际形势下,自主可控的数据库能够减少对国外技术的依赖,降低潜在的安全风险。
全栈国产兼容的特点使得医疗系统能够在国产化的环境中实现无缝衔接。国产数据库不仅能够与国产硬件设备良好配合,还能与其他国产软件系统协同工作。这种兼容性为医疗系统的整合和优化提供了便利,提高了系统的整体性能和稳定性。
(二)高可靠与易迁移
医疗系统对数据库的可靠性要求极高,国产数据库在这方面表现出色。它们具备跨机房容灾部署能力和机房级故障切换能力,能够确保在任何故障场景下实现 RPO 为 0,RTO 可控。
以高度兼容 MySQL 的国产数据库为例,它们将业务应用改造降到最低,实现了数据库的平滑迁移。在医疗系统中,数据的迁移是一个复杂的过程,需要确保数据的完整性和业务的连续性。国产数据库通过与 MySQL 的高度兼容性,使得医疗系统在进行数据库替换时能够减少对现有业务的影响,降低了迁移的风险和成本。
(三)完备工具与业务强支撑
国产数据库拥有完备的配套工具,为医疗系统的数据库迁移、同步、备份和运维等工作提供了高效便捷的解决方案。
这些工具使得区域影像诊断业务系统能够运行在高可靠、高性能、高安全、易运维的国产自主数据库系统上,保障了医疗健康数据的整体安全性。
同时,国产数据库还能够深入了解医疗行业的特点和需求,为医疗系统提供个性化的解决方案。针对不同的医疗场景和业务需求,国产数据库可以提供特定的数据分析和决策支持功能,助力医疗行业的创新和发展。
六、结论
信息医学大佬们
高质量发展背景下,医疗系统国产数据库替换国外数据库是必然趋势。国产数据库在解决国外数据库的困境方面具有明显优势,通过不断探索和实践,为医疗行业提供了可靠的解决方案。未来,国产数据库将在医疗领域发挥更大的作用,推动医疗行业数字化高质量发展。
未来,随着高质量发展的不断推进,国产数据库将在医疗领域发挥更大的作用。国产数据库厂商应继续加强技术研发,提高产品性能和稳定性,完善服务体系,加强与医疗行业伙伴的深度合作,共同推动医疗行业数字化高质量发展。同时,政府和相关部门也应加大对国产数据库的支持力度,制定相关政策,促进国产数据库在医疗行业的广泛应用。