当
n
=1
时,
即出现
在
第
i
位
上
的基
元
w
i
独
立于
历
史
。
一元文法也
被
写
为
uni-gram
或
monogram;
当
n
=2
时
,
2-gram
(
bi-gram
)
被称
为
1
阶
马
尔
可夫
链;
当
n
=3
时
, 3-gram(
tri-gram
)
被称为
2
阶马尔
可
夫
链
,
依
次类推。
例如:
给定句子
:
John
read
a
book
增加标记
:
<BOS>
John
read
a
book
<EOS>
一元
:
<BOS>, John,
read,
a,
book, <EOS
二元:
(<BOS>John), (John read), (read a),
(a
book),
(book
<EOS>)
三元:(<BOS>John
read),
(John
read
a),
(read
a book),
(a
book
<EOS>
基于2元文法的概率是:p(John read a book) =p(John |<BOS>)× p(read|John)× p(a|read)× p(book|a)× p( <EOS>|book)
n元文法的应用:1.音字转换2.汉字分词等。
一个常考的应用:求句子的概率。会给定几个句子,对其进行分词后,重新给定一个句子求其出现的概率。
例如给定上面的句子,求一个新的句子“他是研究生物的”出现概率。那么解决这种问题的步骤:
1.分别统计几个句子分词后每个词出现的次数
2.把新的句子分词后求概率:
P(s) = P(他|<*BOS*>)P(是|他)P(研究|是)P(生物|研究)P(的|生物)P(<*EOS*>|的)
3.根据2元文法模型,计算每个概率。计算方法是前一个词在后一个词出现的基础上出现的次数/后一个词出现的总次数。
P(s) = P(他|<*BOS*>)P(是|他)P(研究|是)P(生物|研究)P(的|生物)P(<*EOS*>|的)
= 3/6 * 1/4 * 2/3 * 3/4 * 3/5 * 3/4