OBIA:900+ 患者、193w+ 影像,中科院基因组所发布我国首个生物影像共享数据库

news2024/10/6 6:40:10

在这里插入图片描述

看病就医,拍片已是常例。CT、核磁、X 光等影像资料可以用非侵入式手段透过人体,使内部器官、组织状况清晰可见,为临床诊断和疾病治疗提供可靠依据。

随着医学影像技术广泛发展,影像资料已占据国内医疗数据的 80% 以上,影像科医生供不应求、各级医院诊断结果存在差异、医疗资源分配不均等痛点也日益凸显。

AI 结合医学影像具有非常大的想象空间,感觉认知及深度学习技术在识别医疗影像诊断结果方面拥有人类无可比拟的优势,可辅助医生降低误诊率、提高工作效率。

然而,高质量的 AI 算法需要足够大且有代表性的图像数据集, 这些医疗图像又往往涉及大量敏感隐私信息,加上各级医院之间存在「数据孤岛」,不完整的共享系统使得医疗影像 AI 的可用资源有限。

作者 | 铁塔

编辑 | 三羊、雪菜

全球已有不少国家建设了各类医学影像数据共享数据库,我国在此领域同国际社会仍有差距,为推动高质量的医学生物影像数据共享,中科院基因组所(中国国家生物信息中心)建立了开放生物医学成像档案 (OBIA)。

作为国内首个开放的生物医学成像数据和相关临床数据存储库, OBIA 对全球医疗从业者及相关学者免费开放。相关成果预印版已于 2023 年 9 月 25 日发表在 「bioRxiv」。

**论文链接: **https://www.nature.com/articles/s42256-023-00704-7

关注「HyperAI超神经」公众号,后台回复「OBIA」获取论文完整 PDF

OBIA 数据库建设及实施过程

作为中国国家生物信息中心的核心数据库资源,OBIA 接受来自世界各地的图像提交并提供所有公开数据的免费开放访问,它支持对影像数据的去标识化 (de-identification)、管理和质量控制 (quality control), 提供浏览、检索和下载等数据服务,可促进现有图像数据和临床数据的重复利用。

OBIA 采用 5 种数据对象 (Collection, Individual, Study, Series, Image) 进行数据组织,接受多模态、多器官、多疾病的生物医学图像提交。

为保护个人隐私,OBIA 制定了统一的去标识化和质量控制流程, 并为数据提交、浏览和检索以及图像检索,提供直观友好的 Web 界面。总体来讲,OBIA 为国内生物医学成像数据管理提供了一个可靠的平台,有助于支持全球生物医学研究。

图 1:OBIA 访问界面

访问地址:https://ngdc.cncb.ac.cn/obia

实现细节——图像检索

深度神经网络擅长提取优势特征, 可用于检索人体各器官的多模态医学图像,并在小样本情况下提高排序性能。与传统方法相比,基于深度学习的方法如尺度不变特征转换 (SIFT)、局部二值模式 (LBP) 和定向梯度直方图 (HOG) 能够表现出更好的性能。

在 OBIA,研究人员以癌症影像数据库 TCIA 的多模态癌症数据为基础,将 EfficientNet 用作特征提取器,使用三元组网络和注意力模块 (attention module) 来训练模型,并将图像压缩为离散哈希值 (图 2)。随后,为加快推理性能并减少推理延迟,训练好的模型被转换为 TensorRT 格式,使用 Faiss 存储哈希码。

研究人员利用汉明距离 (Hamming distance) 计算图像相似度,并返回最相似的图像,结果表明,该模型的平均精度 (MAP) 值超过了 TCIA 数据集上现有高级图像检索模型的性能。

图 2:基于注意力和层融合模块的深度三元组哈希

该模型以 EfficientNet-B6 为主网络,利用 Block5 中的 CBAM 注意模块获取特征映射。在全连接层中采用层融合,利用焦点损失和三元组损失生成哈希码和类嵌入。

注:

● CBAM:convolutional block attention module,卷积块注意力模块

● EfficientNet:Google 于 2019 年提出的新型 CNN 网络,具备极高的参数效率和速度,在图片分类领域表现优异

● Faiss:Facebook 人工智能研究院开发的高性能相似性搜索库,通常用于深度学习

数据库内容及使用——数据模型

如图 3 所示,OBIA 中的成像数据分为 5 种对象类型: Collection, Individual, Study, Series, Image,分别指:

Collections: 以「OBIA」为前缀,提供完整提交的总体描述;

Individual: 登记编号以「 I 」为前缀,定义接受或登记接受医疗保健服务的人类或非人类生物体特征;

Study: 采用以「S」为前缀的登录号,包含对个人进行放射检查的描述性信息;

Series: 研究可以根据不同的逻辑(如身体部位或方向)分成一个或多个 Series;

Image: 描述单个 DICOM 文件(Digital Imaging and Communications in Medicine,医学数字成像和通信)的像素数据,Image 与单个 Study 中的单个 Series 相关。

注:DICOM 是一种广泛应用于医学影像领域的国际标准,定义了一套存储、传输、共享和打印医学影像数据的规范和协议,使不同厂商生产的医学设备和软件之间可以相互兼容和交流。

图 3:OBIA 数据模型

基于这些标准化的数据对象,OBIA 将 DICOM 标准定义的图像结构与实际研究项目连接起来, 实现了数据的共享和交换。

此外,OBIA中的每个 Collections 都链接到 BioProject 以提供有关研究项目的描述性元数据;

如若可行,OBIA 的 Individual 可通过 Individual 登录号与 GSA-Human 相关联,后者将成像数据与基因组数据联系起来,供研究人员进行多组学分析。

BioProject 链接地址:

https://ngdc.cncb.ac.cn/bioproject/

GSA-Human 链接地址:

https://ngdc.cncb.ac.cn/gsa-human/

数据库内容及使用——去标识化和质量控制

生物医疗图像可能包含受保护的健康信息 (PHI,Protected Health Information),需要经过适当处理以尽量降低侵犯个人隐私的风险。为了在删除 PHI 的同时尽可能多地保留有价值的科学信息,OBIA 提供了一个符合 DICOM 标准的去标识化和质量控制机制 (图 4)。

图 4:OBIA 去标识化和质量控制机制

OBIA 利用北美放射学会 (RSNA) 的 MIRC 临床试验处理器 (CTP) 进行大部分去标识化工作:

对于标准标记 (standared tags), 研究人员构建了一个 CTP ,并开发了一个通用的基础去标识化脚本,用于删除或隐去某些包含或可能包含 PHI 的标准标记;

对于私有标记 (private tags), 使用 PyDicom 进行处理,保留其纯数字属性。

去标识过程结束后,OBIA 开始运行质量控制程序:

有问题的图像: 隔离图像,提交者可以提供相关信息对图像进行修复或完全抛弃(该类图像是指带有空白标题或缺少患者 ID、损坏、混合了其他患者图像等类型的图像);

重复的图像: 只保留一个。

随后 OBIA 使用 TagSniffer 为所有图像生成一个报告,报告中所有 DICOM 元素都经过仔细审查,以确保它们不包含 PHI,并且某些值(例如患者 ID、研究日期)按照预期进行修改。

此外,OBIA 工作人员还会对图像像素执行目视检查, 以确保像素值中没有包含 PHI,并且图像是可见和未损坏的。

数据库内容及使用——数据统计

截至 2023 年 9 月,OBIA 共收集了 937 个「Individual」、4,136 个「Study」、24,701 个「Series」和 1,938,309 张「Image」,涵盖 9 种模态和 30 个解剖部位。

具有代表性的成像模态包括 X 射线计算机断层成像 (CT)、磁共振 (MR) 和数字 X 线摄影 (DX),解剖部位包括腹部、胸部、胸部、头部、肝脏、骨盆等。

第 1 批提交给 OBIA 的资料来自 301 医院, 包括 3 种主要妇科肿瘤(子宫内膜癌、卵巢癌和宫颈癌)的影像数据。

如表 1 所示,这些数据被划进 4 个「Collections」,列示了「Individual」数量、「Study」数量、「Series」数量和「Image」数量。此外,OBIA 还收集了相关临床元数据, 如人口统计学数据、病史、家族史、诊断、病理类型和治疗方法等。

表 1:第 1 批提交给 OBIA 的资料

打破数据藩篱国内外构建医疗数据共享平台

数据只有在流通中才会产生价值,为提升生物影像数据共享水平,全球不少国家致力于开放医疗数据库的建设:

美国国立卫生研究院 (NIH): 赞助了若干知识库,如新冠肺炎相关医学影像和数据的开放获取平台 MIDRC,收集神经和脑成像的 IDA, NITRC-IR, FITBIR, OpenNeuro 和 NDA,癌症影像数据库 TCIA 和 IDC(其中 TCIA 在本地提供图像,IDC 在癌症研究数据共享云环境中提供图像);

英国癌症研究中心 (cancer Research UK): 赞助了 OPTIMAM 乳房 X 线摄影图像数据库 (OMI-DB);

葡萄牙波尔图大学 (University of Porto): 赞助了乳腺癌数字存储库 (BCDR),提供带注释的乳腺癌图像和临床细节;

以上存储库中,除了 NITRC-IR 和 IDC,其他大多数都支持数据去标识化和质量控制。 此外,一些大学或机构也提供开源数据集,如 OASIS, EchoNet-Dynamic, CAMUS project 等。

图 5:MIDRC 数据库内一位 79 岁患者的胸部 CT

在国内,华中科技大学提供了 COVID-19 的整合 CT 图像和 CFs 的开放资源, 包括肺炎(含新冠肺炎)患者的 CT 图像和临床特征,但仅限于单一疾病,可用研究资源有限,因此目前国内仍然缺乏专门存储和接受各种疾病及模态资料提交的数据库。

中科院基因组建立的 OBIA 填补了国内生物医疗影像数据开放共享的空白,方便不同机构的研究人员共享临床相关成像数据,可有效弥合中国在生物医学成像数据库领域的差距。

研究人员在论文中表示,未来将持续升级 OBIA 的基础设施,加大安全防护措施,同时将收集更多类型生物医学影像数据,扩大数据源,多措并举不断向「保留尽可能多的有效图像元数据,为科研人员提供高质量的成像数据」的目标迈进。

—— 完 ——

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1076610.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android平台GB28181设备接入侧如何实现SIP校时

规范解读 GB/T28181-2016规范里面,9.10.1章节,关于校时基本要求: 联网内设备支持基于SIP方式或 NTP方式的网络校时功能,标准时间为北京时间。 SIP方式校时见本节具体描述;NTP(见IETFRFC2030)协议的网络统一校时服务…

【通信系列 2 -- 射频电路介绍】

文章目录 1.1 射频电路介绍1.1.1 射频电路的原理1.1.2 射频电路组成和特点 1.1 射频电路介绍 射频(RF)是Radio Frequency的缩写,表示可以辐射到空间的电磁波频率,频率范围从300kHz~300GHz之间。射频就是射频电流&…

美瞳小程序经营配送商城的作用是什么

美瞳是不少小姑娘喜爱的产品,线上线下需求都比较旺盛,尤其是新款或极其漂亮的产品往往会成为疯抢的对象,当然市场高需求的同时商家也面临着一些难题。 通过【雨科】平台搭建美瞳商城小程序,将所有产品线上售卖,摆脱第三…

复亚智能广东智慧应急项目案例:构建“空地一体化”

近日,广东某区深入探索“智慧应急”发展模式,将无人机作为赋能应急处突与“智慧应急”的重要手段,利用复亚智能无人机全自动飞行系统做到“平时巡查巡检、急时辅助处突”,实现全面监管快速响应,无人机自动巡检结合多样…

Web API 基础 (Web Workers API)

Web Workers API 1、指南 1.1 使用Web Workers Web Workers是一种让Web内容在后台线程中运行脚本的简单方法。工作线程可以在不干扰用户界面的情况下执行任务。此外,它们还可以使用XMLHttpRequest(尽管responseXML和channel属性总是为空)或fetch(没有此类限制)执…

XPS测试仪器-科学指南针

在做 X 射线光电子能谱(XPS)测试时,科学指南针检测平台工作人员在与很多同学沟通中了解到,好多同学仅仅是通过文献或者师兄师姐的推荐对XPS测试有了解,但是对于其测试仪器还属于小白阶段,针对此,科学指南针检测平台团队…

ant design form数组修改 关联展示

根据form 数组项修改关联其他选项 如图&#xff0c;在项目开发中&#xff0c;每个form中有多个产品&#xff0c;提货方式不同&#xff0c;有一个需要邮寄展示收货地址&#xff0c;否则不用展示 // An highlighted block <Card title"产品信息" bordered{false}&g…

VulnHub narak

一、信息收集 1.nmap扫描开发端口 2.扫描目录 利用dirb扫描目录 3.发现 /webdav目录 访问 WebDAV 基于 HTTP 协议的通信协议&#xff0c;在GET、POST、HEAD等几个HTTP标准方法以外添加了一些新的方法&#xff0c;使应用程序可对Web Server直接读写&#xff0c;并支持写文件锁…

vue3源码解析

vue3源码解析与前端网络安全 VUE 3 拓展 vue3 对比 vue2 响应式数据 vue2 的响应式数据是通过 Object.defineProperty 进行数据劫持&#xff0c;其存在一些缺点&#xff1a; 必须要预知劫持的 key 是什么&#xff0c;并不能很好的监听到对象属性的添加、删除&#xff1b;初…

家政服务行业怎么做微信小程序开发

随着科技的不断发展&#xff0c;微信小程序已经成为了人们生活中不可或缺的一部分。在家政服务领域&#xff0c;微信小程序也发挥出了重要的作用。本文将探讨家政服务在微信小程序上可以实现的功能。 一、展示家政服务信息 微信小程序可以作为一个展示家政服务的平台&#xff…

XML外部实体注入攻击XXE

xml是扩展性标记语言&#xff0c;来标记数据、定义数据类型&#xff0c;是一种允许用户对自己的标记语言进行定义的源语言。XML文档结构包括XML声明、DTD文档类型定义&#xff08;可选&#xff09;、文档元素&#xff0c;一般无法直接打开&#xff0c;可以选择用excl或记事本打…

虚拟桌宠模拟器:VPet-Simulator,一个开源的桌宠软件, 可以内置到任何WPF应用程序

虚拟桌宠模拟器&#xff1a;VPet-Simulator&#xff0c;一个开源的桌宠软件, 可以内置到任何WPF应用程序 虚拟桌宠模拟器 一个开源的桌宠软件, 可以内置到任何WPF应用程序 获取虚拟桌宠模拟器 OnSteam(免费) 或 通过[Nuget]内置到你的WPF应用程序 1.虚拟桌宠模拟器 详细介绍 …

2023 10月2日 至 10 月8日学习总结

学了半天 想了还是需要进行个总结 1.做的题目 NSSCTF [BJDCTF 2020]easy_md5 md5实现sql-CSDN博客 [网鼎杯 2020 白虎组]PicDown python反弹shell proc/self目录的信息_双层小牛堡的博客-CSDN博客 [CISCN2019 华北赛区 Day1 Web5]CyberPunk 二次报错注入_双层小牛堡的博客-…

XPS表征(工作原理与特点)-科学指南针

在做 X 射线光电子能谱(XPS)测试时&#xff0c;科学指南针检测平台工作人员在与很多同学沟通中了解到&#xff0c;好多同学仅仅是通过文献或者师兄师姐的推荐对XPS有了解&#xff0c;但是对于XPS测试原理还属于小白阶段&#xff0c;针对此&#xff0c;科学指南针检测平台团队组…

Laya3.0 入门教程

点击play箭头 点击右边的开发者工具 就会弹出 chrome的调试窗口 然后定位到你自己的ts文件 直接在ts里断点即可 不需要js文件 如何自动生成代码&#xff1f; 比如你打开一个新项目 里面显示的是当前场景 只需要点击 UI运行时 右边的框就可以了 他会自动弹窗提示你 创建一个文…

iNet Network Scanner for Mac,轻松管理网络

iNet Network Scanner for Mac是一款强大的网络扫描工具&#xff0c;能够帮助你轻松管理和监控网络设备。 无论你是个人用户还是企业管理员&#xff0c;iNet Network Scanner都能为你提供全面而方便的网络管理体验。它可以快速扫描并识别局域网中的所有设备&#xff0c;包括电…

竞赛选题 深度学习 机器视觉 人脸识别系统 - opencv python

文章目录 0 前言1 机器学习-人脸识别过程人脸检测人脸对其人脸特征向量化人脸识别 2 深度学习-人脸识别过程人脸检测人脸识别Metric Larning 3 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 深度学习 机器视觉 人脸识别系统 该项目…

主机加固,防勒索病毒

​近年来&#xff0c;计算机以及互联网应用在中国得到普及和发展&#xff0c;已经深入到社会每个角落&#xff0c;政府&#xff0c;经济&#xff0c;军事&#xff0c;社会&#xff0c;文化和人们生活等各方面都越来越依赖于计算机和网络&#xff0c;电子政务&#xff0c;无纸办…

Flutter的Platform介绍-跨平台开发,如何根据不同平台创建不同UI和行为

文章目录 Flutter跨平台概念介绍跨平台开发平台相关性Platform ChannelPlatform-specific UIPlatform Widgets 如何判断当前是什么平台实例 Platform 类介绍获取当前平台的名称检查当前平台其他属性 利用flutter设计跨Android和IOS平台应用的技巧1. 遵循平台的设计准则2. 使用平…

Numpy Notes

np.linalg.norm() Matrix or vector norm return one of eight different matrix norms, or one of an infinite number of vector norms (described below), depending on the value of the ord parameter. np.linalg.norm() 用于求范数linalg : linear(线性) algebra(代数…