生成式预训练语言模型
- 一、图灵测试到自然语言处理( Natural Language Processing, NLP)发展简史
- 1.语言模型的引入
- 2.语言模型的进化
- 2.3 基于统计的语言模型
- 2.4 基于深度学习的语言模型
- 2.5 语言模型发展的里程碑
- 2.6 预训练模型
- 3.问题
- 总结
一、图灵测试到自然语言处理( Natural Language Processing, NLP)发展简史
1.语言模型的引入
语言是信息的载体
通信模型
NLP
语言模型的定义:
计算和预测自然语言序列概率分布的模型
分析语言数据来推断和预测语言现象
可以判断一个语言序列是否是正常句子
可以根据给定的上下文,预测接下来会出现的单词
2.语言模型的进化
起源图灵测试
——
基于规则(太过复杂,容错率低)
——
基于统计(判断哪个更像句子——判断哪个句子的概率大。是“写了”“本书”的概率高,哈斯hi“写了”“学生”的概率高)
——
深度学习大数据驱动
贾利尼克的假设:一个句子是否合理,取决于出现在自然语言种的可能性的大小
2.3 基于统计的语言模型
句子出现的可能性——每个词按照特定顺序出现的可能性
条件概率
2.4 基于深度学习的语言模型
2003年,Bengio团队发表论文“A Neural Probabilistic language Model”首次提出了将神经网络应用于语言模型的概念
2.5 语言模型发展的里程碑
1948 N-gram model:基于钱n-1个词来预测序列的下一个词
1954 Bag-of-words 词袋模型,统计词频,转换为概率问题
2003 Probabilistic language Model
2013 word2vec简单高效的分布式单词表示方法
2018 pre-trained language model 预训练模型
2.6 预训练模型
目前所用的
编码器家族——都是基于BERT的模型
BERT:Bi-direction Encoder Representation Transformer——双向编码表示transformer
其他都是BERT的改装
解码器家族——GPT
generative pretrain transformer——生成(单向)预训练transformer
3.问题
总结
输入输出