MIMIC-IV-ED数据集介绍

news2024/11/15 23:48:19
MIMIC-IV-ED v2.2

图片

Abstract

MIMIC-IV-ED 是一个大型的免费数据库,记录了2011年至2019年间急诊部门(ED)贝斯以色列女执事医疗中心的入院情况。该数据库包含约425,000个 ED 停留。生命体征,分类信息,药物协调,药物管理和出院诊断是可用的。所有数据都被确定为符合健康信息便携性和责任法(HIPAA)安全港条款。MIMIC-IV-ED 旨在支持各种各样的教育倡议和研究。

Background

急诊科(ED)是一个高需求的环境,病人被评估和分流为进一步的护理。ED 患者组成一个严重程度从轻微擦伤到危及生命的心脏并发症的异质性队列。急诊室从根本上说是一个资源有限的环境,其中最重要的资源,人类的注意力是定量配给,以最大限度地积极的患者结果。算法方法的最新进展为改善急诊护理质量提供了一个令人兴奋的机会。数据驱动分析的一个先决条件是足够大数据集,而广泛的数据可访问性使研究具有可重复性。MIMIC-IV-ED 旨在通过提供一个大型的数据库来支持急诊护理中的数据分析,该数据库位于马萨诸塞州波士顿的一个三级学术医疗中心。它是 MIMIC-IV 的一个模块,这意味着 MIMIC-IV-ED 中包含的信息可以与 MIMIC-IV 中的信息联系起来[1]。

Methods

数据是以扩展标记语言(XML)从贝斯以色列女执事医疗中心(BIDMC) ED 中提取出来的,然后从 XML 转换成一个非规范化的关系数据库,旨在简化分析。所有数据都没有被标识为符合健康保险便利和责任法案(HIPAA)安全港条款。患者标识符被随机替代。数据集中存在三个去隐私化的患者标识符: subject _ id、 hadm _ id 和 stay _ id。所有这三个标识符都是按照 MIMIC-IV 和 MIMIC-CXR 生成的,允许使用一个或多个上述标识符连接这些数据集。根据患者的具体情况,日期被随机改为2100-2200之间的时间。日期变更一致地应用于单个 subject _ id,与单个 subject _ id 相关联的所有时间在时间上是一致的,并反映了事件的真实顺序。相反,不同的subject _ id 在时间上有重叠的数据不一定同时出现在 ED 中。最后,使用混合去识别算法处理自由文本字段,并将检测到的 PHI 实体替换为三个下划线(’_ _’)[6]。

创建了一个由六个表组成的模式。创建 edstay 表是为了跟踪根据 stay _ id 确定的单个患者住院和急诊出院情况。五个数据表存储了病人住院期间记录的信息: diagnosis,medrecon,pyxis,triage, andvitalsign.。表的命名是为了反映其内部或其来源的数据。虽然 MIMIC-IV-ED 的核心目标是为研究目的提供真实世界的临床数据,因此限制了在数据发布之前进行的预处理的数量,但在转换过程中需要一些数据清理步骤。在使用表特定的主键插入时,观察数据被删除。主键是 stay _ id、 charttime (如果存在)和其他适当的属性列(例如 pyxis 中的 name 列)的组合。为了去识别的目的,一个正则表达式被用来保留numeric vital signs in the triagea和vitalsign tables。在 ED 停留之外超过一年的观察——通常由于图表时间中的排印错误而发生——被删除。

Data

MIMIC-IV-ED由单个患者跟踪表、电子病历和五个数据表组成:诊断、药物治疗、pyxis、分诊和生命体征。

edstays

图片

病人的住院时间是在edstays table记录的。Edstay 表的每一行都有一个惟一的 stay _ id,它表示 ED 中的一个惟一的患者停留时间。Edstay 表包含以下列: subject _ id、 hadm _ id、 stay _ id、 intime、 outtime、 sex、 race、arrival_transport, and disposition。intime 表示病人进入急诊室的时间, outtime表示病人从急诊室出院的时间。如果患者在急诊室住院后入院,hadm _ id 列将填充表示他们住院时间的标识符。可以将 hadm _ id 与 MIMIC-IV 中的 hadm _ id 联系起来,以获得有关患者住院时间的进一步详细信息。每个个体被分配一个唯一的 subject _ id,并且一个患者的多次 ED 住院在 edstay 表中的住院期间将具有相同的 subject _ id。患者人口统计资料,包括种族和性别,分别在各栏中提供。病人入院的到达方式在arrival_transport字段中提供,并被编码为五个值: AMBULANCE、 HELICOPTER、 WALK IN、 UNKNOWN 或 OTHER。患者出院位置编码在disposition,并且是八个值之一 : 入院,私奔,过期,家庭,违反医疗建议离开,未被看见离开,转移和其他。

注意,subject_id可以用来连接MIMIC-IV- ed和MIMIC-IV,以获得有关个人的额外信息,例如年龄。subject_id也可以与MIMIC-CXR中的PatientID DICOM属性链接,以获取患者的胸部x光片(如果有的话)[3]。

Diagnosis

图片

诊断表为患者提供了第九或第十修订版(ICD-9或 ICD-10)的编码诊断国际疾病与相关健康问题统计分类。这些诊断由训练有素的coder在急诊科出院后确定,并用于计费目的。诊断表中有六列: subject _ id、 stay _ id、 seq _ num、 icd _ code、 icd _ version 和 icd _ title。一次性住院最多可获得9个 ICD 代码。Seq _ num 列为 ICD 代码提供了一个伪顺序,值1通常表示最高相关性,值9表示最低相关性。ICD _ code 使用 ICD 本体提供诊断的编码表示,ICD _ version 列为9或10,表示使用的医学术语编码集是 ICD-9还是 ICD-10,ICD _ title 列提供 ICD 代码的文本描述。

值得注意的是,诊断表中的结算诊断仅与病人的急诊室住院有关。如果病人随后住院,他们将有一套单独的住院诊断单据,这些单据没有记录在本表中。有关将 MIMIC-IV-ED 连接到 MIMIC-IV 的详细信息,请参阅使用说明,这将有助于将收费的 ED 诊断与收费的医院诊断进行比较。

medrecon

图片

Medrecon ( 药物重整) 表为每个病人提供了药物=重整信息,即病人在急诊住院前服用的药物清单。Medrecon 表有9列: subject_id,stay_id,charttime,name,gsn,ndc,etc_rn,etccode,etcdescriptioncharttime提供的药物重整的时间日期。Name 列提供药物的文本描述,GSN 列提供通用序列号(GSN) ,NDC 列提供国家药物代码(NDC)。注意,gsn 或 ndc 为0表示该值丢失。以 etc 为前缀的列提供了将类似类别的药物组合在一起的本体。注意,由于一种药物可以在本体中分为多个组,因此一种药物可能有多行。例如,Adderal(一种药物)是(1)一种中枢神经系统兴奋剂,(2)一种注意力缺陷多动疗法,和(3)一种发作性睡眠疗法。因此,在入院前服用Adderal的患者将在 medrecon 表中有三行,由顺序单调递增的整数 etc _ rn 描述(用来描述有几个本体分组)。etccode提供本体组的编码形式,etcdescription 提供本体(ontology: 类似于一种大组概念,一种药物分属于几种概念)组的文本描述。

pyxis

图片

Pyxis 表格提供了由 BD Pyxis MedStation 提供的药物分配信息,这是一个存在于 ED 中的自动药物分配系统[7]。Pyxis 表有9列: subject _ id、 stay _ id、 charttime、 med _ rn、 name、 gsn _ rn 和 gsn。图表时间提供了药物分发的时间。如果同时分配多种药物,med _ rn 列描述这些药物。Name 列提供所分配的药物的文本描述,并且可以另外包含诸如所述制剂的辅助信息。。GSN 列提供可用的通用序列号(GSN) ,GSN _ rn 描述与同一药物相关联的多个 GSN 值。注意,GSN 为0表示缺少 GSN。并非所有的药物都是由医疗站分配的,因此并非所有的药物都记录在医疗台上。例如,本表中没有大量液体(如用于复苏的液体)。

Triage

图片

triage table提供了在分诊时从病人那里收集到的信息。所有到急诊室就诊的病人都会立即进行分流,这个过程包括评估他们的健康状况和确定他们就诊的原因。这个分类表有十一列:subject_id,stay_id,temperature,heartrate,resprate,o2sat,sbp,dbp,pain,acuity, andchiefcomplaint(体温,心率,呼吸,血氧饱和度,血压,血压,疼痛,敏锐度,主诉)。分流时收集的生命体征包括患者体温(体温)、心率(心率)、唿吸率(复苏)、上静脉血氧饱和度(o2sat)、收缩压(sbp)和舒张压(dbp)。虽然生命体征可以记录为自由文本,识别方法只保留数字生命体征。一个病人报告的疼痛水平可在paincolumn。主诉是一个自由文本字段,其中包含患者报告的向急诊室提交的原因。主投诉字段通常是以逗号分隔的条目列表。出现在主投诉字段中的 PHI 被三个下划线(“ _ _ _”)替换。根据分流评估,护理提供者将分配一个整数级别的严重性(锐度) ,其中1表示最高的严重性和5表示最低的严重性。

vitalsign

图片

生命体征表包含病人在住院期间记录的非周期性生命体征。Vital sign 表格有十一列: subject_id,stay_id,charttime,temperature,heartrate,resprate,o2sat,sbp,dbp,rhythm, andpain。生命体征表中的生命体征与triage table中收集的生命体征相似。rhythm另外为患者提供心率节奏,charttime提供了生命体征被记录的时间。

Usage Notes

Organization

MIMIC-IV-ED 组织在一个星型模式中,可视化地理解,其中一个表位于星型的中心,所有其他表使用相同的标识符链接到这个中心表。Edstay 表提供了 MIMIC-IV-ED 中每次停留的准入时间和出院时间,由标识符 stay _ id 唯一引用。所有其他表都可以通过 stay _ id 链接到 edstay表,并且大多数表在每个 stay _ id 中都有多行。

可以使用任意数量的软件程序(包括关系数据库管理系统)来分析 MIMIC-IV-ED。将 MIMIC-IV-ED 加载到 PostgreSQL 的代码是在一个开放源码库中提供的[8,9]。该存储库还包含用于派生概念、教程、数据分析笔记本的代码,并充当社区讨论的论坛[8,9]。我们进一步在基于云的数据库服务(包括 Google BigQuery)中提供 MIMIC-IV-ED,允许有资质的调查人员立即使用该数据集。

Data Linkage

MIMIC-IV-ED 可以作为一个独立的研究数据库使用,但也可以链接到 MIMIC-IV 和 MIMIC-CXR [1,3]。Subject _ id 值提供了数据集之间的隐式链接; 即所有三个数据库都引用具有相同 subject _ id 的同一个个体。MIMIC-IV-ED 中的所有 ED (以 stay _ id 表示)都存在于 MIMIC-IV 的transfer table中。例如,连接到 MIMIC-IV,将提供 ED 患者的大致年龄,因为这些数据可以在 MIMIC-IV 中的patients table中获得。对 ED 患者的实验室测量可以在 MIMIC-IV 的hosp module的labevents table中找到,处方药可以在 MIMIC-IV 的hosp module的prescriptions table中找到,等等。最终入住重症监护室的急诊室病人将获得有关他们随后入住重症监护室的信息。因此,MIMIC-IV-ED 可以用来获取危重病人的 ICU 前信息。MIMIC-IV 比 MIMIC-IV-ED 涵盖的时间范围更广,因为并非所有在 MIMIC-IV 的急诊部门案例都会出现在 MIMIC-IV-ED 中,但 MIMIC-IV-ED 中的所有急诊部门入院病人都会出现在 MIMIC-IV 中。

MIMIC-CXR 患者是 MIMIC-IV-ED 患者的一个子集。因此,许多急诊病人订购了胸部 X 光片,可以在 MIMIC-CXR 中获得影像和放射学报告。请注意,并非所有 ED 患者在 MIMIC-CXR 中都有 X 射线,因为 MIMIC-IV-ED 覆盖更长的时间范围,但是几乎所有在 MIMIC-CXR 中有 X 射线的 ED 停留患者都将在 MIMIC-IV-ED 中存在相关的停留。

Limitations

包含在 MIMIC-IV-ED 中的数据是在常规临床护理期间收集的,它们在研究中的使用次于它们在临床护理中的使用。由于局部数据收集实践,数据可能包含隐含的偏差,测量值难以置信,以及缺少所提供治疗的文档。许多干预措施,包括重大事件,如气管插管,没有明确的记录。研究人员在工作中应注意解决这些问题。

Release Notes

MIMIC-IV-ED v2.2

MIMIC-IV-ED v2.2于2023年1月5日发布。它删除了 subject _ id 的一个子集,这个子集将在内部保留为一个测试集。未来的数据发布将排除这些患者。

  • Edstay-从表中删除了22,625 stay _ id

  • 其他表将删除行,以反映前面提到的 stay _ id 的删除。最终的行计数可以在 MIMIC Code Repository 发布的验证脚本中获得[8]

MIMIC-IV-ED v2.0

MIMIC-IV-ED v2.0于2022年5月发布。这是对带有额外数据类型的 MIMIC-IV-ED 的一个改进。由于架构发生了变化,主版本增加了。

修改包括

  • 向edstays表添加了其他列

    • 性别

    • 种族

    • 抵达交通工具

    • 处置

  • 修正了一个错误,在没有随后的住院停留时间是不正确的。这导致所有具有 NULL hadm _ id 的 edstay 行的 ED 停留时间明显少于或等于几分钟。停机时间列已更正。

  • 分类表的 pain 列现在是自由文本,并且现在包含非有效数字的自由文本条目。这与 vitalsign 表中的 pain 列更为一致,该列已经是自由文本。

MIMIC-IV-ED v1.0

MIMIC-IV-ED v1.0于2021年6月3日发布。MIMIC-IV-ED 的初始版本包含六个表格: edstay、诊断、 Medrecon、 Pyxis、分类和 Vitalsign。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1423948.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

android 自定义下拉框

一、 简介: 原生Android 提供的spinner下拉框不怎么方便,样式有点丑。修改起来麻烦,于是就自己动手写了一下拉列表。 实现原理使用的是,popwindow弹框,可实现宽高自定义,下拉列表使用listview. 二、pop弹框…

python爬虫2

1.table 是表格&#xff0c;tr是行&#xff0c;td是列 ul li是无序列标签用的较多&#xff0c;ol li是有序列标签 最基本的结构 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><title> Title </title>…

《区块链简易速速上手小册》第6章:区块链在金融服务领域的应用(2024 最新版)

文章目录 6.1 金融服务中的区块链6.1.1 金融服务中区块链的基础6.1.2 主要案例&#xff1a;跨境支付6.1.3 拓展案例 1&#xff1a;去中心化金融&#xff08;DeFi&#xff09;6.1.4 拓展案例 2&#xff1a;代币化资产 6.2 区块链在支付系统中的作用6.2.1 支付系统中区块链的基础…

2024-02-01 Unity Shader 开发入门4 —— ShaderLab 语法

文章目录 1 材质和 Shader1.1 Unity Shader 和 Shader 的区别1.2 Unity 中的材质和 Shader1.3 创建材质1.4 创建 Shader 2 ShaderLab 的基本结构2.1 什么是 ShaderLab2.2 ShaderLab 的基本结构 3 Shader 名称4 Shader 属性4.1 Shader 属性的作用4.2 Shader 属性的基本语法4.3 数…

飞桨paddlespeech语音唤醒推理C INT8 定点实现

前面的文章&#xff08;飞桨paddlespeech语音唤醒推理C定点实现&#xff09;讲了INT16的定点实现。因为目前商用的语音唤醒方案推理几乎都是INT8的定点实现&#xff0c;于是我又做了INT8的定点实现。 实现前做了一番调研。量化主要包括权重值量化和激活值量化。权重值由于较小且…

操作方法:将 PDF 转换为 Word 文档的 7 种方法

只要您有合适的工具&#xff0c;将 PDF 另存为 Word 文档就是小菜一碟。为了简化 PDF 转 Word 的转换&#xff0c;从而提高工作效率&#xff0c;这篇文章将围绕 Windows、Mac 和在线上的几个免费 PDF 转 Word 转换器&#xff0c;轻松帮助您学习如何将 PDF转换为 Word。 Windows…

AIGC,ChatGPT4 实际需求效办公自动化函数应用

用实际需求来给大家演示一下ChatGPT如何助力办应用。 首先我们来提取年份值 我们将公式复制到表格即可。 接下来进行向下填充。 就得到了所有年份&#xff0c; 接下来我们完成第二个需求&#xff0c;按年份统计销售额。 Prompt&#xff1a;有一个表格C列是年份&#xff0c;D列…

java+springboot电影订票选座及评论网站影评系统ssm+vue

广大观影消费者需要知道自己的空闲时间&#xff0c;在自己可以接受的地理距离范围内&#xff0c;是否有感兴趣的影片可供观看&#xff0c;也需要清楚哪家影院在销售自己需要的电影票&#xff1b;同时手握电影排期及上映信息的电影院的运营者也急需根据消费者的观影需求实时调整…

FFMPEG 之 DXVA2 硬解

一&#xff1a;FFMPEG 支持的硬解方式有很多&#xff1a; DXVA2、D3D11VA、CUDA、QSV、OPENCL、DRM、VAAPI、VDPAU、VIDEOTOOLBOX、MEDIACODEC。 有的支持 Windows 平台&#xff0c;有的支持 linux 平台&#xff0c;有的支持 apple ios 平台&#xff0c;…

Java 面向对象进阶 03 static 注意事项、重新认识main方法(黑马)

案例代码如下&#xff1a; 非静态的方法虚拟机会自带一个关键字&#xff0c;如下&#xff1a; 但是不能手动出来&#xff0c;它的类型就是当前类&#xff1b; 通过输出this&#xff0c;得到当前s1,s2 的地址&#xff1b; 所以在输出时会有隐藏的this&#xff0c;所以this所指向…

LaTeX 文本对齐:ragged2e 宏包

✅作者简介&#xff1a;人工智能专业本科在读&#xff0c;喜欢计算机与编程&#xff0c;写博客记录自己的学习历程。 &#x1f34e;个人主页&#xff1a;小嗷犬的个人主页 &#x1f34a;个人网站&#xff1a;小嗷犬的技术小站 &#x1f96d;个人信条&#xff1a;为天地立心&…

268. Missing Number(丢失的数字)

题目描述 给定一个包含 [0, n] 中 n 个数的数组 nums &#xff0c;找出 [0, n] 这个范围内没有出现在数组中的那个数。 问题分析 因为这些数是在[0, n] 范围内的数&#xff0c;我们要是一一标记其是否出现很麻烦&#xff0c;但是我们考虑到如果用所有数的和&#xff0c;减去…

【网络安全|漏洞挖掘】ChatGPT 再曝安全漏洞,被指泄露私密对话

风靡全球的聊天机器人 ChatGPT 近日再次陷入安全风波&#xff0c;被曝泄露用户同机器人的私密对话&#xff0c;其中包含用户名、密码等敏感信息。 ArsTechnica 网站援引其读者提供的截图报道称&#xff0c;ChatGPT 泄露了多段非用户本人的对话内容&#xff0c;包含了大量敏感信…

Web前端入门 - HTML JavaScript Vue

ps&#xff1a;刚开始学习web前端开发&#xff0c;有什么不正确、不标准的内容&#xff0c;欢迎大家指出~ Web简介 90年代初期&#xff0c;Web1.0&#xff0c;静态页面&#xff0c;不和服务器交互&#xff0c;网页三剑客指Dreamweaver、Fireworks、Flash2000年代中期&#xf…

HiveSQL题——数据炸裂和数据合并

目录 一、数据炸裂 0 问题描述 1 数据准备 2 数据分析 3 小结 二、数据合并 0 问题描述 1 数据准备 2 数据分析 3 小结 一、数据炸裂 0 问题描述 如何将字符串1-5,16,11-13,9" 扩展成 "1,2,3,4,5,16,11,12,13,9" 且顺序不变。 1 数据准备 with da…

算法练习-逆波兰表达式求值(思路+流程图+代码)

难度参考 难度&#xff1a;中等 分类&#xff1a;栈与队列 难度与分类由我所参与的培训课程提供&#xff0c;但需要注意的是&#xff0c;难度与分类仅供参考。且所在课程未提供测试平台&#xff0c;故实现代码主要为自行测试的那种&#xff0c;以下内容均为个人笔记&#xff0c…

能耗在线监测系统在节能管理中的应用

上海安科瑞电气股份有限公司 胡冠楠 咨询家&#xff1a;“Acrelhgn”&#xff0c;了解更多产品资讯 摘要&#xff1a;开展能耗在线监测系统建设&#xff0c;对加强政府部门和企业节能管理中的应用前景&#xff0c;分析系统在能源消费预测分析、能效对标、节能监察、能源精细化…

【Oracle云】OCI DevOps Services 构建自动化流水线 (1) - 基础架构流程 OCI 代码仓库使用

OCI DevOps Services 是 Oracle Cloud Infrastructure (OCI) 提供的一项独立的 CI/CD 服务&#xff0c;旨在支持用户构建自动化的流水线&#xff0c;实现更高效、可靠的软件交付。在本系列的第一篇文章中&#xff0c;我们将深入探讨 OCI DevOps Services 的基础架构流程&#x…

探索设计模式的魅力:精准解读桥接模式-用桥接模式构建可扩展的软件系统

设计模式专栏&#xff1a;http://t.csdnimg.cn/nolNS 目录 一、了解桥接模式&#xff1a;探索抽象和实现的分离 1.1 开-闭原则 1.2 组合/聚合复用原则 1.3 定义 1.4 用意 1.5 基本思想 1.6 组成部分 1.7 桥梁模式的示意性系统的结构图 二、桥接模式的优势&#xff1a…

RK356X RKAndroid12 TF卡配置 自动挂载

RK356X RKAndroid12 TF卡配置 自动挂载 RK3568 有三个SDMMC接口&#xff0c;分别为SDMMC0 SDMMC1 SDMMC2 DTS 配置 1. max-frequency <150000000>; 此配置设置 SD 卡的运行频率&#xff0c;虽然设置为 150M &#xff0c;但是还要根据 SD 卡的不同模式进行调整。这…