自然语言处理基本介绍
自然语言:指人类使用的在社会生活中自然形成的语言;
自然语言处理:指计算机识别、理解、计算分析、生成自然语言的过程。
包含自然语言理解和自然语言生成两部分的两大研究方向。
自然语言理解:所有支持机器理解文本内容的方法模型或任务的总称,是推荐、问答、搜索等系统的必备模块
自然语言生成:将非语言格式的数据转换成人类可以理解的语言格式,是翻译、写作等系统的必备模块。
- 自然语言的发展趋势:
- 智能人机交互:不同语言、领域下的人机交互提升;多语言交互从不同语言理解上升到不同文化理解。
- 多模态融合:视频、图像、文本、语音等模态的全面融合;
- 解决方案建设:每种场景领域都有特定的需求及其相应的场景数据;模型结合场景数据训练能够更好的满足场景需求。
- 形成行业知识库:结合已有的知识和技术提高非结构化数据的理解能力;基于过去已知知识进行推理,理解行业事件知识。
数据基础
自然语言处理的预料库
- 大量已知语料数据的集合,在自然语言处理模型的定型过程中起到基准的作用;
- 在自然语言的实际使用中真实出现过的语言材料,通常经过整理,具有既定格式与标记;
- 若要获得最小单位的字词,需要由外而内一层多层剥开。
现代汉语与英语的主要区别在于汉语中名词、动词、形容词的语法功能是相互交错的;一类词往往充当多种句子成分,一种成分往往也不是某一类词专有的。例如:
- 名词作谓语:八月一日建军节。
- 名词作状语:我明天下午很忙。
自然语言处理的技术体系
自然语言处理的基础技术
词法分析
主要作用:将句子、段落、文章这种长文本分解为以字词为单位的数据结构,方便后续的分析和处理工作。
所需知识:分词;词性标注。
分词
将句子、段落、文章等长文本分解为以字词为单位的数据结构;
常见的方法包括最大匹配分词算法和最短路径分词算法。