人工智能ACA（七）——计算机视觉基础

news2026/2/14 14:36:50

一、自然语言处理基本介绍

1. 自然语言处理的定义

1-1 自然语言

人类使用的在社会生活中自然形成的语言

1-2 自然语言处理

目标是让计算机能够理解、解析、生成和处理人类的自然语言

包含自然语言理解和自然语言生成两部分组成

2. 自然语言处理的发展趋势

3.自然语言处理的数据基础

3-1 自然语言处理的语料库

语料库

是大规模的语言数据集合
用于语言研究和应用的基础资源
语言学角度：真实语言使用的采样记录
计算语言学角度：用于自然语言处理的结构化文本数据

4.自然语言处理的技术基础

4-1 自然语言处理的技术体系

4-2 自然语言工作流程

二、自然语言处理基础技术详细介绍

1. 分词

1-1 分词的定义

将长文本非结构化数据分解为以字词为单位的数据结构(结构化数据)
常见方法为最大匹配分词法和最短路径分词法

1-2 分词难点

1-3 分词的实现方法——最大匹配分词方法

1-4 分词的实现方法——最短路径分词发

2. 词性标注

2-1 定义

词性是指词的语法分类，又称词类
词性标注是在给定句子中判断每个词的语法范畴，确定其词性并加以标注的过程

2-2 词性标注规范

3. 关键词提取

3-1 定义

关键词即文本中一些“重要”词，通过这些重要的词可以理解文本中心思想。类似论文的摘要

根据关键词大概能理解整句话的含义

3-2 关键词提取的实现方法——步骤1获取候选关键词

3-2 关键词提取的实现方法——步骤2 对候选关键词打分

4. 命名实体识别

4-1 定义

文本中具有特定意义的实体词
表示特定类型的名词
具有唯一性和专指性的词语

4-2 命名实体识别的标注

5. 语法分析

5-1 定义

分析句子的语法结构
确定句子成分之间的关系
构建句子的语法树
验证句子的语法正确性

5-2 语法分析的难点

5-3 语法分析的实现方法

6. 文本向量化

6-1 定义

6-2 文本向量化的实现方法——离散式词向量

6-3 文本向量化的实现方法——分布式词向量

离散式词向量：每一行代表一个词，列出该词在句子中的位置。

分布式词向量：每一列代表改词在不同特征上的分布

每个词在相同特征上的均值就是这句话在该特征的特征值

词语	特征1	特征2	特征3	特征4
我	0.1	0.2	0.4	0.2
喜欢	0.2	0.3	0.7	0.1
学习	0.5	0.9	0.1	0.3
NLP	0.2	0.3	0.6	0.2

三、自然语言理解技术介绍与应用

1. 文本分类技术

2. 情感分析技术

3. 文本纠错技术

4. 问答系统技术

四、自然语言生成技术介绍与应用

1. 文本标签生成技术

2. 文本摘要生成技术

3. 智能创作

五、实验

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2265956.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！