MIMIC-IV-ED v2.2
Abstract
MIMIC-IV-ED 是一个大型的免费数据库,记录了2011年至2019年间急诊部门(ED)贝斯以色列女执事医疗中心的入院情况。该数据库包含约425,000个 ED 停留。生命体征,分类信息,药物协调,药物管理和出院诊断是可用的。所有数据都被确定为符合健康信息便携性和责任法(HIPAA)安全港条款。MIMIC-IV-ED 旨在支持各种各样的教育倡议和研究。
Background
急诊科(ED)是一个高需求的环境,病人被评估和分流为进一步的护理。ED 患者组成一个严重程度从轻微擦伤到危及生命的心脏并发症的异质性队列。急诊室从根本上说是一个资源有限的环境,其中最重要的资源,人类的注意力是定量配给,以最大限度地积极的患者结果。算法方法的最新进展为改善急诊护理质量提供了一个令人兴奋的机会。数据驱动分析的一个先决条件是足够大数据集,而广泛的数据可访问性使研究具有可重复性。MIMIC-IV-ED 旨在通过提供一个大型的数据库来支持急诊护理中的数据分析,该数据库位于马萨诸塞州波士顿的一个三级学术医疗中心。它是 MIMIC-IV 的一个模块,这意味着 MIMIC-IV-ED 中包含的信息可以与 MIMIC-IV 中的信息联系起来[1]。
Methods
数据是以扩展标记语言(XML)从贝斯以色列女执事医疗中心(BIDMC) ED 中提取出来的,然后从 XML 转换成一个非规范化的关系数据库,旨在简化分析。所有数据都没有被标识为符合健康保险便利和责任法案(HIPAA)安全港条款。患者标识符被随机替代。数据集中存在三个去隐私化的患者标识符: subject _ id、 hadm _ id 和 stay _ id。所有这三个标识符都是按照 MIMIC-IV 和 MIMIC-CXR 生成的,允许使用一个或多个上述标识符连接这些数据集。根据患者的具体情况,日期被随机改为2100-2200之间的时间。日期变更一致地应用于单个 subject _ id,与单个 subject _ id 相关联的所有时间在时间上是一致的,并反映了事件的真实顺序。相反,不同的subject _ id 在时间上有重叠的数据不一定同时出现在 ED 中。最后,使用混合去识别算法处理自由文本字段,并将检测到的 PHI 实体替换为三个下划线(’_ _’)[6]。
创建了一个由六个表组成的模式。创建 edstay 表是为了跟踪根据 stay _ id 确定的单个患者住院和急诊出院情况。五个数据表存储了病人住院期间记录的信息: diagnosis,medrecon,pyxis,triage, andvitalsign.。表的命名是为了反映其内部或其来源的数据。虽然 MIMIC-IV-ED 的核心目标是为研究目的提供真实世界的临床数据,因此限制了在数据发布之前进行的预处理的数量,但在转换过程中需要一些数据清理步骤。在使用表特定的主键插入时,观察数据被删除。主键是 stay _ id、 charttime (如果存在)和其他适当的属性列(例如 pyxis 中的 name 列)的组合。为了去识别的目的,一个正则表达式被用来保留numeric vital signs in the triagea和vitalsign tables。在 ED 停留之外超过一年的观察——通常由于图表时间中的排印错误而发生——被删除。
Data
MIMIC-IV-ED由单个患者跟踪表、电子病历和五个数据表组成:诊断、药物治疗、pyxis、分诊和生命体征。
edstays
病人的住院时间是在edstays table记录的。Edstay 表的每一行都有一个惟一的 stay _ id,它表示 ED 中的一个惟一的患者停留时间。Edstay 表包含以下列: subject _ id、 hadm _ id、 stay _ id、 intime、 outtime、 sex、 race、arrival_transport, and disposition。intime 表示病人进入急诊室的时间, outtime表示病人从急诊室出院的时间。如果患者在急诊室住院后入院,hadm _ id 列将填充表示他们住院时间的标识符。可以将 hadm _ id 与 MIMIC-IV 中的 hadm _ id 联系起来,以获得有关患者住院时间的进一步详细信息。每个个体被分配一个唯一的 subject _ id,并且一个患者的多次 ED 住院在 edstay 表中的住院期间将具有相同的 subject _ id。患者人口统计资料,包括种族和性别,分别在各栏中提供。病人入院的到达方式在arrival_transport
字段中提供,并被编码为五个值: AMBULANCE、 HELICOPTER、 WALK IN、 UNKNOWN 或 OTHER。患者出院位置编码在disposition
,并且是八个值之一 : 入院,私奔,过期,家庭,违反医疗建议离开,未被看见离开,转移和其他。
注意,subject_id可以用来连接MIMIC-IV- ed和MIMIC-IV,以获得有关个人的额外信息,例如年龄。subject_id也可以与MIMIC-CXR中的PatientID DICOM属性链接,以获取患者的胸部x光片(如果有的话)[3]。
Diagnosis
诊断表为患者提供了第九或第十修订版(ICD-9或 ICD-10)的编码诊断国际疾病与相关健康问题统计分类。这些诊断由训练有素的coder在急诊科出院后确定,并用于计费目的。诊断表中有六列: subject _ id、 stay _ id、 seq _ num、 icd _ code、 icd _ version 和 icd _ title。一次性住院最多可获得9个 ICD 代码。Seq _ num 列为 ICD 代码提供了一个伪顺序,值1通常表示最高相关性,值9表示最低相关性。ICD _ code 使用 ICD 本体提供诊断的编码表示,ICD _ version 列为9或10,表示使用的医学术语编码集是 ICD-9还是 ICD-10,ICD _ title 列提供 ICD 代码的文本描述。
值得注意的是,诊断表中的结算诊断仅与病人的急诊室住院有关。如果病人随后住院,他们将有一套单独的住院诊断单据,这些单据没有记录在本表中。有关将 MIMIC-IV-ED 连接到 MIMIC-IV 的详细信息,请参阅使用说明,这将有助于将收费的 ED 诊断与收费的医院诊断进行比较。
medrecon
Medrecon ( 药物重整) 表为每个病人提供了药物=重整信息,即病人在急诊住院前服用的药物清单。Medrecon 表有9列: subject_id
,stay_id
,charttime
,name
,gsn
,ndc
,etc_rn
,etccode
,etcdescription
。charttime
提供的药物重整的时间日期。Name 列提供药物的文本描述,GSN 列提供通用序列号(GSN) ,NDC 列提供国家药物代码(NDC)。注意,gsn 或 ndc 为0表示该值丢失。以 etc 为前缀的列提供了将类似类别的药物组合在一起的本体。注意,由于一种药物可以在本体中分为多个组,因此一种药物可能有多行。例如,Adderal(一种药物)是(1)一种中枢神经系统兴奋剂,(2)一种注意力缺陷多动疗法,和(3)一种发作性睡眠疗法。因此,在入院前服用Adderal的患者将在 medrecon 表中有三行,由顺序单调递增的整数 etc _ rn 描述(用来描述有几个本体分组)。etccode提供本体组的编码形式,etcdescription 提供本体(ontology: 类似于一种大组概念,一种药物分属于几种概念)组的文本描述。
pyxis
Pyxis 表格提供了由 BD Pyxis MedStation 提供的药物分配信息,这是一个存在于 ED 中的自动药物分配系统[7]。Pyxis 表有9列: subject _ id、 stay _ id、 charttime、 med _ rn、 name、 gsn _ rn 和 gsn。图表时间提供了药物分发的时间。如果同时分配多种药物,med _ rn 列描述这些药物。Name 列提供所分配的药物的文本描述,并且可以另外包含诸如所述制剂的辅助信息。。GSN 列提供可用的通用序列号(GSN) ,GSN _ rn 描述与同一药物相关联的多个 GSN 值。注意,GSN 为0表示缺少 GSN。并非所有的药物都是由医疗站分配的,因此并非所有的药物都记录在医疗台上。例如,本表中没有大量液体(如用于复苏的液体)。
Triage
triage table提供了在分诊时从病人那里收集到的信息。所有到急诊室就诊的病人都会立即进行分流,这个过程包括评估他们的健康状况和确定他们就诊的原因。这个分类表有十一列:subject_id
,stay_id
,temperature
,heartrate
,resprate
,o2sat
,sbp
,dbp
,pain
,acuity
, andchiefcomplaint
(体温,心率,呼吸,血氧饱和度,血压,血压,疼痛,敏锐度,主诉)。分流时收集的生命体征包括患者体温(体温)、心率(心率)、唿吸率(复苏)、上静脉血氧饱和度(o2sat)、收缩压(sbp)和舒张压(dbp)。虽然生命体征可以记录为自由文本,识别方法只保留数字生命体征。一个病人报告的疼痛水平可在pain
column。主诉是一个自由文本字段,其中包含患者报告的向急诊室提交的原因。主投诉字段通常是以逗号分隔的条目列表。出现在主投诉字段中的 PHI 被三个下划线(“ _ _ _”)替换。根据分流评估,护理提供者将分配一个整数级别的严重性(锐度) ,其中1表示最高的严重性和5表示最低的严重性。
vitalsign
生命体征表包含病人在住院期间记录的非周期性生命体征。Vital sign 表格有十一列: subject_id
,stay_id
,charttime
,temperature
,heartrate
,resprate
,o2sat
,sbp
,dbp
,rhythm
, andpain
。生命体征表中的生命体征与triage table中收集的生命体征相似。rhythm另外为患者提供心率节奏,charttime提供了生命体征被记录的时间。
Usage Notes
Organization
MIMIC-IV-ED 组织在一个星型模式中,可视化地理解,其中一个表位于星型的中心,所有其他表使用相同的标识符链接到这个中心表。Edstay 表提供了 MIMIC-IV-ED 中每次停留的准入时间和出院时间,由标识符 stay _ id 唯一引用。所有其他表都可以通过 stay _ id 链接到 edstay表,并且大多数表在每个 stay _ id 中都有多行。
可以使用任意数量的软件程序(包括关系数据库管理系统)来分析 MIMIC-IV-ED。将 MIMIC-IV-ED 加载到 PostgreSQL 的代码是在一个开放源码库中提供的[8,9]。该存储库还包含用于派生概念、教程、数据分析笔记本的代码,并充当社区讨论的论坛[8,9]。我们进一步在基于云的数据库服务(包括 Google BigQuery)中提供 MIMIC-IV-ED,允许有资质的调查人员立即使用该数据集。
Data Linkage
MIMIC-IV-ED 可以作为一个独立的研究数据库使用,但也可以链接到 MIMIC-IV 和 MIMIC-CXR [1,3]。Subject _ id 值提供了数据集之间的隐式链接; 即所有三个数据库都引用具有相同 subject _ id 的同一个个体。MIMIC-IV-ED 中的所有 ED (以 stay _ id 表示)都存在于 MIMIC-IV 的transfer table中。例如,连接到 MIMIC-IV,将提供 ED 患者的大致年龄,因为这些数据可以在 MIMIC-IV 中的patients table中获得。对 ED 患者的实验室测量可以在 MIMIC-IV 的hosp module的labevents table中找到,处方药可以在 MIMIC-IV 的hosp module的prescriptions table中找到,等等。最终入住重症监护室的急诊室病人将获得有关他们随后入住重症监护室的信息。因此,MIMIC-IV-ED 可以用来获取危重病人的 ICU 前信息。MIMIC-IV 比 MIMIC-IV-ED 涵盖的时间范围更广,因为并非所有在 MIMIC-IV 的急诊部门案例都会出现在 MIMIC-IV-ED 中,但 MIMIC-IV-ED 中的所有急诊部门入院病人都会出现在 MIMIC-IV 中。
MIMIC-CXR 患者是 MIMIC-IV-ED 患者的一个子集。因此,许多急诊病人订购了胸部 X 光片,可以在 MIMIC-CXR 中获得影像和放射学报告。请注意,并非所有 ED 患者在 MIMIC-CXR 中都有 X 射线,因为 MIMIC-IV-ED 覆盖更长的时间范围,但是几乎所有在 MIMIC-CXR 中有 X 射线的 ED 停留患者都将在 MIMIC-IV-ED 中存在相关的停留。
Limitations
包含在 MIMIC-IV-ED 中的数据是在常规临床护理期间收集的,它们在研究中的使用次于它们在临床护理中的使用。由于局部数据收集实践,数据可能包含隐含的偏差,测量值难以置信,以及缺少所提供治疗的文档。许多干预措施,包括重大事件,如气管插管,没有明确的记录。研究人员在工作中应注意解决这些问题。
Release Notes
MIMIC-IV-ED v2.2
MIMIC-IV-ED v2.2于2023年1月5日发布。它删除了 subject _ id 的一个子集,这个子集将在内部保留为一个测试集。未来的数据发布将排除这些患者。
-
Edstay-从表中删除了22,625 stay _ id
-
其他表将删除行,以反映前面提到的 stay _ id 的删除。最终的行计数可以在 MIMIC Code Repository 发布的验证脚本中获得[8]
MIMIC-IV-ED v2.0
MIMIC-IV-ED v2.0于2022年5月发布。这是对带有额外数据类型的 MIMIC-IV-ED 的一个改进。由于架构发生了变化,主版本增加了。
修改包括
-
向edstays表添加了其他列
-
性别
-
种族
-
抵达交通工具
-
处置
-
-
修正了一个错误,在没有随后的住院停留时间是不正确的。这导致所有具有 NULL hadm _ id 的 edstay 行的 ED 停留时间明显少于或等于几分钟。停机时间列已更正。
-
分类表的 pain 列现在是自由文本,并且现在包含非有效数字的自由文本条目。这与 vitalsign 表中的 pain 列更为一致,该列已经是自由文本。
MIMIC-IV-ED v1.0
MIMIC-IV-ED v1.0于2021年6月3日发布。MIMIC-IV-ED 的初始版本包含六个表格: edstay、诊断、 Medrecon、 Pyxis、分类和 Vitalsign。