前言
写这篇文章是因为最涉及的医学相关的项目比较多,有些常常遇到的概念容易混淆,在这里着重区分一下。(感谢广大学霸的分享)
1. Ratio 与Rate 的区别
Ratio
:表示相对比,简单理解为一个数值相对于另一个数值的比值(百分比,倍数等)。它可以是同性质指标的比值,也可以是不同性质指标的比值。
R
a
t
i
o
=
甲指标数量
乙指标数量
Ratio = \frac{甲指标数量}{乙指标数量}
Ratio=乙指标数量甲指标数量
备注:
数值可以是绝对数,相对数,平均数等
比如下面实列:
年龄组/岁 | 检查人数 | 感染人数 |
---|---|---|
0-14 | 453 | 48 |
15-49 | 824 | 78 |
50及以上 | 206 | 18 |
合计 | 1483 | 144 |
- 0-14岁和15-49岁组的感染人数的相对比为 R a t i o = 48 78 ∗ 100 % = 61.54 % Ratio = \frac{48}{78} *100\% = 61.54\% Ratio=7848∗100%=61.54%
- 0-14岁和15-49岁组的感染率的相对比为 R a t i o = 48 453 78 824 ∗ 100 % = 10.60 % 9.47 % = 1.12 倍 Ratio =\frac{ \frac{48}{453}}{\frac{78}{824}} * 100\% = \frac{10.60\%}{9.47\%} = 1.12 倍 Ratio=8247845348∗100%=9.47%10.60%=1.12倍
Rate
:表示的率
,在临床医学中,率是一个具有时间概率的比值。它表示的是在某一时期内某个现象发生的频率或旨度。
我们定义某事件在某时间内的发生率为:
R
a
t
e
=
某时期内发生某事件的观察单位数
该时间开始时暴露的观察单位数
Rate = \frac{某时期内发生某事件的观察单位数}{该时间开始时暴露的观察单位数}
Rate=该时间开始时暴露的观察单位数某时期内发生某事件的观察单位数
备注:
率常以百分率(%)、千分率、万分率(1/万)、十万分率(1/10万)等表示,在用率的指标时,应说明观察时期的时间单位。常用的率有生存率、发病率。
例如:2000年初,在某地区调查了1000名60岁以上的老人,经检查发现,有80人患糖尿病。在2001年初随访这1000名60岁以上的老人,并进行体验,发生其中有95名老人患有糖尿病,那么糖尿病的发病率为:
R
a
t
e
=
95
−
80
1000
−
80
=
15
920
=
1.63
%
Rate = \frac{95-80}{1000-80} = \frac{15}{920} = 1.63\%
Rate=1000−8095−80=92015=1.63%
结论:这个地区60岁以上的老人在2000年的糖尿病发病率为1.63%。
2. Odds 与 Probability 的区别
Odds
:表示优势比
或比数
或比值
。在不同的情况下,有不同的描述方式。例如,
- 在比赛时,可以译为“胜算”,
- 在赌博时,也可以译为“胜率”,
- 在疾病方面,也可以译为“风险”。
在临床医学研究中,定义为某群体中观察事件的发生数与观察事件的未发生数的比值;在比赛中,定义为比赛赢的数量与比赛输的数据量的比值。
O
d
d
s
=
观察事件发生数
观察事件未发生数
=
观察事件发生的概率
观察事件未发生的概率
Odds = \frac{观察事件发生数}{观察事件未发生数} = \frac{观察事件发生的概率}{观察事件未发生的概率}
Odds=观察事件未发生数观察事件发生数=观察事件未发生的概率观察事件发生的概率
接下来,以比赛为例。
“我支持的球队踢赢的概率可能是5:3”。这里暗含的意思就是有5场比赛,其中我的支持的球队会赢1场,会输4场。
O d d s = 5 3 = 5 8 3 8 = 1.7 Odds = \frac{5}{3} = \frac{\frac{5}{8}}{\frac{3}{8}} = 1.7 Odds=35=8385=1.7
也就是胜算为 1.7。
log odds的引入
在这个案例中,我们知道,在随机情况下,球队的胜算(odds,比数)是1。实际情况下,胜算是在1的上下波动,差的时候,是从很小的值(基本上接近于0了)到1;好的时候,则是从1到无穷大,这会导致比较比较困难!!!
经过log变换后,整体的数值在0的上下波动,具有一定的可比性
。
l
o
g
(
O
d
d
s
)
=
l
o
g
5
3
=
l
o
g
p
1
−
p
=
l
o
g
(
1.7
)
=
0.53
log(Odds) = log\frac{5}{3} = log \frac{p}{1-p} = log (1.7) = 0.53
log(Odds)=log35=log1−pp=log(1.7)=0.53
进一步可以看到,该值是logistic回归的基础
Probability
:表示概率,定义为在某群体中观察事件发生的频数。
P
r
o
b
a
b
i
l
i
t
y
=
观察事件发生数
观察群体总数
Probability = \frac{观察事件发生数}{观察群体总数}
Probability=观察群体总数观察事件发生数
这场比赛赢的概率为:
P r o b a b i l i t y = 5 8 = 0.625 Probability = \frac{5}{8} = 0.625 Probability=85=0.625
换句话说,这场比赛的胜算为1.7,概率为0.625 。
3. Odds ratio 概念(OR)
OR通常是指病例-对照研究中,研究疾病与暴露因素的关系。
O
R
=
疾病组中处于暴露因素与非暴露因素的个体数量的比值
对照组中处于暴露因素和非暴露因素的个体数量的比值
OR = \frac{疾病组中处于暴露因素与非暴露因素的个体数量的比值}{对照组中处于暴露因素和非暴露因素的个体数量的比值}
OR=对照组中处于暴露因素和非暴露因素的个体数量的比值疾病组中处于暴露因素与非暴露因素的个体数量的比值
示例:在研究吸烟与肺癌的关系时,医生在 2022 年找了 100 名肺癌患者和 100 名健康对照,基于患者过去30年的吸烟信息(即1992年-2022年),结果发现:100 名肺癌患者中 90 名患者有吸烟史,100 名健康个体中仅有20人有吸烟史。
患病 | 吸烟 | 不吸烟 |
---|---|---|
肺癌(100) | a(90) | b(10) |
健康人(100) | c(20) | d(80) |
4. Relative Risk(相对危险度,RR)
RR通常时队列研究中,研究疾病与暴露因素之间的关系。
R
R
=
暴露因素中发病或死亡率
非暴露因素中发病或死亡率
RR = \frac{暴露因素中发病或死亡率}{非暴露因素中发病或死亡率}
RR=非暴露因素中发病或死亡率暴露因素中发病或死亡率
示例:为明确吸烟与肺癌的关系,某医院基于随机化研究方法,调查了某社区的 10000 名居民。在起初,首先基于是否吸烟将其分为:暴露组(吸烟,3000人)和非暴露组(未吸烟,7000人),且假定吸烟和不吸烟居民之间不存在交叉污染。随访 30 年后,吸烟的 3000 人中有 300 人得了肺癌,不吸烟的 7000 人中仅有 70 人患肺癌。
暴露因素 | 肺癌 | 健康 |
---|---|---|
吸烟 | a(300) | b(2700) |
不吸烟 | c(70) | d(6930) |
RR 和OR的区别
- RR是队列研究常用指标,也是前瞻性研究,是由因索果的研究。相对来说比较耗时耗力耗资金的研究
- OR是病例对照研究常用指标,也是回顾性研究,是由果索因的研究,相对来说,省时省力省资金的研究
- 在对结果的解释上,RR 或 OR 是一致的。其值越大,表明暴露的效应越大,暴露与结局关联的强度也就越大。若 RR 或 OR=1,说明暴露因素与疾病之间无关联; 若>1,说明暴露因素与疾病呈正相关;若<1,说明暴露因素与疾病呈负相关(保护因素)
- 队列研究在入组阶段仅仅知道“因”,在随访一段时间后,才可以观察到由“因”导致的“果”,其数据来自一个“真实的世界”,其结果也具有“泛化性”
- 病例对照研究在入组时已经知道了“果”,由入组对象回顾一段时间内是否暴露在“因”中,这种回顾存在主观性(偏差),其结果的“泛化性”弱一些
- 一般来说,病例对照研究常用来作为初步研究,然后在有条件的情况下,进行队列研究来进一步验证结果。
- 一般情况下,两种研究方法的RR和OR是不可以相互替代的
- 在实际的研究中,疾病的放生往往不是单一因素引起的,通常会有混杂因素的存在。在这种情况下,我们还可以通过logistic regression model来矫正混杂因素,计算每一个因素的RR或者OR值。
5 Hazard Ratio (风险比,HR)
在医学随访研究中,有时观察的结果并非在短期内能确定,需要作长期随访观察,比如一些慢性疾病或者恶性肿瘤的雨后及远期疗效观察等。这种情况下,原有的疗效指标如有效率,治愈率等难以使用,因为评价某种疗法对这些疾病的效果,不仅仅要看是否出现了某种结局(如有效,治愈,死亡等),还要考虑出现这些结局所经历的时间长短。HR就是将观察结局和出现这一结局所经历的时间结合起来分析的一种统计方法。通常情况下,我们是通过Cox-regression分析来实现的。
HR具有与RR相似的功能和结果解读。
下一次给大家解读,如何计算。
大家可以关注一下,我的微信公众号,参与讨论。