BM25原理概述

news2026/2/13 22:00:36

1️⃣设定：对于查询 $Q\text{=}\{q_1,q_2,...,q_n\}$ 和段落集 $\mathscr{P}\text{=}\left\{P^{(1)},P^{(2)},\ldots,P^{(\text{N})}\right\}$ ，其中 $P^{(\alpha)}\text{=}\left\{p^{(\alpha)}_1,p^{(\alpha)}_2,...,p^{(\alpha)}_m\right\}$

2️⃣逆文档频率： $\displaystyle{}\text{IDF}(q_i)\text{=}\log\left(\cfrac{\text{N}–\text{DF}(q_i)\text{+}0.5}{\text{DF}(q_i)\text{+}0.5}\text{+}1\right)$

段落频： $\text{DF}(q_i)$ 为文档频率，即在 $\mathscr{P}\text{=}\left\{P^{(1)},P^{(2)},\ldots,P^{(\text{N})}\right\}$ 中有多少个段落包含词汇 $q_i$
含义：用于评估词 $q_i$ 在段落集 $\mathscr{P}$ 中的稀有程度， $\text{IDF}$ 值越高越稀有

1️⃣ $\text{BM25}$ 评分： $\displaystyle{}\text{Score}\left(Q,P^{(\alpha)}\right)\text{=}\sum_{i=1}^{n}\text{IDF}(q_i)\text{×}\cfrac{(k_1\text{+}1)\text{TF}\left(q_i,P^{(\alpha)}\right)}{\text{TF}\left(q_i,P^{(\alpha)}\right)\text{+}k_1\left(1–b\text{+}\cfrac{b|P^{(\alpha)}|}{\text{avgdl}}\right)}$

词频： $\text{TF}\left(q_i,P^{(\alpha)}\right)$ 为词频，即 $q_i$ 在 $P^{(\alpha)}$ 中出现的总次数
归一化：即 $1–b\text{+}\cfrac{b|P^{(\alpha)}|}{\text{avgdl}}$ ，其中 $\text{avgdl}$ 是段落的平均长度，抹除长文档的固有相似度偏好
调参： $k_1$ 与 $b$ 可供调整，适应不同的检索任务