BioMedKGs：算法生成医学知识图谱，解决构建和维护工作量巨大问题

BioMedKGs：算法生成医学知识图谱，解决构建和维护工作量巨大问题

提出背景
对比传统方法

算法设计
3.1 自动化命名实体识别（NER）
3.2 术语发现与清洗
3.3 同义词分组形成概念
3.4 多语言、机器翻译
3.5 语义类型分类
3.6 关系提取
3.7 数据和版本管理机制
打个比方
效果

提出背景

论文：https://arxiv.org/ftp/arxiv/papers/2203/2203.09975.pdf

在医疗领域，高精度、零错误和可解释性是推广人工智能技术的关键因素。

尽管使用医疗知识图谱结合大模型是一种有效的方法，但知识图谱的构建和维护工作量巨大，且范围有限，这限制了其在医疗领域的应用。

本研究介绍了生物医学信息学本体系统（BIOS），这是第一个完全由机器学习算法生成的大规模公开可用的生物医学知识图谱（BioMedKG）。

BIOS当前包含410万个概念、740万个术语（覆盖两种语言）以及730万个关系三元组。

本文展示了BIOS的开发方法论，包括生物医学术语的策划、同义词的计算识别及其聚合以创建概念节点、概念的语义类型分类、关系识别以及生物医学机器翻译。

我们提供了当前BIOS内容的统计数据，并对术语质量、同义词分组和关系提取进行了初步评估。

比如，在BIOS中，“2型糖尿病"这一概念可能会以多种形式和名称存在，如"2型糖尿病”、“II型糖尿病”、“2型糖尿病糖尿病”、“T2DM”、“非胰岛素依赖型糖尿病”、"NIDDM"等。

这些不同的术语都指向同一个概念节点，展现了BIOS如何聚合同义词以创建概念节点的能力。

在关系识别方面，BIOS能够识别和表示生物医学概念之间的复杂关系，例如，它可能包含一个关系三元组[阿司匹林, 可治疗, 发热]，其中"可治疗"是连接阿司匹林和发热两个概念的关系，展示了BIOS如何用于自动诊断、问答和药物发现等多种AI任务。

通过机器学习算法，BIOS可以自动从大量生物医学文献中提取这些信息，生成一个广泛、准确和实时更新的知识图谱。

结果表明，基于机器学习的BioMedKG开发是传统专家策划的一个可行替代方案。

对比传统方法

假设研究人员希望探索2型糖尿病（T2DM）和心血管疾病（CVD）之间的关联性，需要从生物医学文献中提取有关这两种疾病的相关信息。

传统方法

术语识别和同义词分组：传统上，专家会手动识别文献中的术语，并根据专家的知识和现有的医学词典将同义词归类。这一过程耗时且容易遗漏非标准术语。
关系提取：通过阅读文献，专家识别并记录下疾病之间的潜在关系。这依赖于专家的专业知识和文献的全面阅读，效率低下。
更新知识库：随着新研究的发布，需要定期手动更新知识库，这一过程缓慢且费力。

BIOS方法

术语识别和同义词分组：BIOS使用基于BERT的NER模型自动识别文献中的生物医学术语。然后，通过生物医学术语嵌入（BTE）技术，自动将“2型糖尿病”、“T2DM”等术语聚合为同一概念，无需人工干预，大大提高了同义词分组的准确性和效率。
关系提取：BIOS采用远程监督的关系提取（DS-RE）方法，自动从文献中提取疾病之间的关系，如[T2DM, 关联, CVD]。这种方法不仅加快了信息提取的速度，还能发现人类专家可能忽略的潜在关系。
知识库更新：随着新研究的不断发表，BIOS可以自动处理新的文献摘要和全文，实时更新知识图谱。这确保了知识库始终保持最新状态，而无需耗费大量人工资源。

与传统方法相比，BIOS采用的现代机器学习和NLP技术显著提高了生物医学知识图谱的构建和更新速度，减少了人工工作量，并增强了知识图谱的广度和深度。

通过自动化处理大规模文献数据，BIOS能够有效支持复杂的生物医学查询和研究，推动医学研究和临床实践的进步。

算法设计

这张图是BIOS系统的数据生成和版本控制机制的示意图，展示了从索引创建训练数据到跟踪预测结果来源的整个过程，以及如何维护每个训练模型的代码和依赖性。

假设我们正在研究特定的疾病群体——肺结核（Tuberculosis, TB）。

索引阶段：我们从文献中收集关于肺结核的术语和短语，并为每个术语建立索引。例如，我们识别并记录“Mycobacterium tuberculosis”（引起肺结核的细菌）、“肺结核”、“抗结核药物”等术语。
源追踪：为了跟踪每个术语的来源，我们记录下包含这些术语的句子及其在文献中的具体位置，以及相关文献的标识符和参考资料。
语义类型分类：每个术语根据其含义被分类为一定的语义类型，如“Mycobacterium tuberculosis”被分类为“微生物”。
术语聚类和机器翻译：通过CODER++等工具将“结核”、“TB”等术语归为“肺结核”这一概念，并将这些术语翻译成其他语言，如中文。
关系提取：我们分析文献数据，用自动化工具识别出“肺结核”和其他概念之间的关系，如“[抗结核药物, 用于治疗, 肺结核]”。
NER和RE模型：通过训练NER和RE模型来预测新术语和关系，模型基于BERT等预训练模型，通过大量PubMed摘要进行训练，以提高预测准确性。
版本控制：在模型训练、预测和翻译等各个阶段，我们通过版本控制系统来记录每一步的操作和结果，确保可以追溯到每个模型的训练数据和版本，从而在发现问题时能够快速定位和修复。