一、自然语言处理基本介绍
1. 自然语言处理的定义
1-1 自然语言
人类使用的在社会生活中自然形成的语言
1-2 自然语言处理
目标是让计算机能够理解、解析、生成和处理人类的自然语言
包含自然语言理解和自然语言生成两部分组成
2. 自然语言处理的发展趋势
3.自然语言处理的数据基础
3-1 自然语言处理的语料库
语料库
- 是大规模的语言数据集合
- 用于语言研究和应用的基础资源
- 语言学角度:真实语言使用的采样记录
- 计算语言学角度:用于自然语言处理的结构化文本数据
4.自然语言处理的技术基础
4-1 自然语言处理的技术体系
4-2 自然语言工作流程
二、自然语言处理基础技术详细介绍
1. 分词
1-1 分词的定义
- 将长文本非结构化数据 分解为以字词为单位的数据结构(结构化数据)
- 常见方法为 最大匹配分词法 和 最短路径分词法
1-2 分词难点
1-3 分词的实现方法——最大匹配分词方法
1-4 分词的实现方法——最短路径分词发
2. 词性标注
2-1 定义
- 词性 是指词的语法分类,又称词类
- 词性标注 是在给定句子中判断每个词的语法范畴,确定其词性并加以标注的过程
2-2 词性标注规范
3. 关键词提取
3-1 定义
关键词即文本中一些“重要”词,通过这些重要的词可以理解文本中心思想。类似论文的摘要
根据关键词 大概能理解整句话的含义
3-2 关键词提取的实现方法——步骤1获取候选关键词
3-2 关键词提取的实现方法——步骤2 对候选关键词打分
4. 命名实体识别
4-1 定义
- 文本中具有特定意义的实体词
- 表示特定类型的名词
- 具有唯一性和专指性的词语
4-2 命名实体识别的标注
5. 语法分析
5-1 定义
- 分析句子的语法结构
- 确定句子成分之间的关系
- 构建句子的语法树
- 验证句子的语法正确性
5-2 语法分析的难点
5-3 语法分析的实现方法
6. 文本向量化
6-1 定义
6-2 文本向量化的实现方法——离散式词向量
6-3 文本向量化的实现方法——分布式词向量
离散式词向量:每一行代表一个词,列出该词在句子中的位置。
分布式词向量:每一列代表改词在不同特征上的分布
每个词在相同特征上的均值就是这句话在该特征的特征值
词语 | 特征1 | 特征2 | 特征3 | 特征4 |
---|---|---|---|---|
我 | 0.1 | 0.2 | 0.4 | 0.2 |
喜欢 | 0.2 | 0.3 | 0.7 | 0.1 |
学习 | 0.5 | 0.9 | 0.1 | 0.3 |
NLP | 0.2 | 0.3 | 0.6 | 0.2 |