生物医学实体链接
🤓现在是激动人心的部分。对于NLP和命名实体识别和链接的新手,让我们从一些基础知识开始。命名实体识别技术用于检测文本中的相关实体或概念。例如,在生物医学领域,我们希望在文本中识别各种基因、药物、疾病和其他概念。
在这个例子中,NLP模型在文本中识别了基因、疾病、药物、物种、突变和途径。如前所述,这个过程被称为命名实体识别。对命名实体识别的升级就是所谓的命名实体链接。命名实体链接技术检测文本中的相关概念,并试图将它们映射到目标知识库。在生物医学领域,一些目标知识库是:
- MESH
- CHEBI
- OMIM
- ENSEMBL
- and others
为什么我们要将医疗实体与目标知识库联系起来?主要原因是它有助于我们处理实体消歧。例如,我们不希望图中有单独的实体代表抗坏血酸和维生素C,因为领域专家可以告诉你这些是同一件事。第二个原因是,通过将概念映射到目标知识库,我们可以通过从目标知识库中获取有关映射概念的信息来丰富图形模型。如果我们再次使用抗坏血酸的例子,如果我们已经知道它的CHEBI id,我们可以很容易地从CHEBI数据库中获取更多信息。
Enrichment data available about ascor