一、背景
统计语言模型的理论基础是信源-信道模型,这两个模型都基于马尔可夫假设,即当前的事件只依赖于前面的一些事件。在统计语言模型中,当前的单词只依赖于前面的一些单词,而在信源-信道模型中,接收端只能看到传输过程中的有限的信息,而不知道整个传输过程。信源-信道模型的任务是:已知带有噪声的输出,想知道输入是什么
【已知不正确的输出,反推输入是啥】
二、语言模型
统计语言模型(Statistical Language Model)
试图捕获自然语言的统计规律以改善各种自然语言应用系统的性能,广泛地应用于语音识别、手写体文字识别、机器翻译、键盘输入、信息检索等领域。
注:统计语言建模(Statistical Language Modeling)相当于对各种语言单位如字、词、句子或整篇文章进行概率分布的估计
那么, 什么是语言模型? 语言模型(Language Model):是一个概率模型,用来估计语言句子出现的概率。