深入了解 NLP 及课程总结反思
摘要
- 自然语言处理的历史发展
- 自然语言处理的方法与相关应用
- 关于数据智能科学技术导论这门课程的总结反思
Navigator
- 深入了解 NLP 及课程总结反思
- 一、自然语言处理的历史发展
- 二、自然语言处理的方法与相关应用
- 三、关于数据智能科学技术导论这门课程的总结反思
不知不觉这个学期已经接近尾声了,而数据智能科学技术导论这门课程也已经结束了,最后这次报告我打算写一些之前没有写过的关于人工智能新技术,也是我比较感兴趣的自然语言处理方面的深入了解,并在最后回顾一下我在这门课中的收获。
一、自然语言处理的历史发展
通过人工智能课程我们知道,自然语言处理是人工智能与语言学交叉融合的学术研究和技术应用领域。更准确地说其是计算机科学、人工智能以及语言学的子领域,涉及计算机与人类语言之间的交互,特别是如何对计算机进行编程以处理和分析大量自然语言数据。其研究目标是一台能够理解语言内容的计算机,包括理解语言中上下文细微差别,然后准确地提取语言中包含的信息和见解,并对语言本身进行分类和组织。课上老师主要将其分为自动语音识别,词嵌入和语义理解,机器翻译以及机器问答四个方面。
通过浏览互联网我们知道自然语言处理起源于 1950 年代,早在 1950 年,图灵就发表了一篇题为《计算机与智能》的文章,提出了现在所谓的图灵测试作为智能的标准,尽管当时并未将其作为与人工智能分开的问题。提议的测试包括一项涉及自然语言自动解释和生成的任务。而究其历史,自然语言处理大致可以分为三个阶段,分别是符号 NLP,统计 NLP 以及目前的神经 NLP。其中 80 年代和90 年代初是 NLP 中符号方法的全盛时期,当时的重点领域包括基于规则的解析(将 HPSG 发展为生成语法的计算操作化)、形态学、语义学等。而与此同时自然语言处理发生了一场统计 NLP 革命并最终引入了用于语言处理的机器学习算法,这主要是由于计算能力的稳定增长(也即摩尔定律)和乔姆斯基语言学理论(转换语法)的主导地位逐渐减弱,目前表示学习和深度神经网络式机器学习方法在自然语言处理中变得普遍,这种普遍流行部分是由于一系列结果表明此类技术可以在许多自然语言任务中实现最先进的结果。
二、自然语言处理的方法与相关应用
关于自然语言处理的方法层面老师所说的大多都是目前最先进的神经网络方法,但符号方法和统计方法如今仍然经常出现,比如说当训练数据量不足以成功应用机器学习方法之时,抑或是用于 NLP 管道中的预处理,后处理以及转换NLP 管道的输出都可以再次应用符号方法,同时统计方法也与需要统计可解释性和透明度的环境相关。而有关于神经网络的自然语言处理书本上也有很清楚的说明,接下来我们就加深了解一下自然语言处理的相关应用,首先是文本和语音处理,包括光学字符识别(OCR),也即将打字、手写或打印文本的图像以电子或机械方式转换为机器编码文本,无论是来自扫描文档、文档照片、场景照片或叠加在图像上的字幕文字,还有语音识别、语音分割以及语音合成,其次是词汇语义和句法分析,包括各种语法归纳、语法解析、词汇语义以及分布语义,甚至是情绪分析。这些初级应用也为自动摘要(文本摘要)、语法错误纠正、机器翻译、自然语言生成(NLG)、自然语言理解(NLU)以及机器问答等高级应用提供了基础。
三、关于数据智能科学技术导论这门课程的总结反思
最后也是最重要的一点便是我自己对于学习数据智能科学技术导论这门课程的总结反思,首先这门课给了我除了日常学习之外的一次接触新事物的机会,第 1 篇的三个世界课让我收获了新的认识世界的视角,黄院长给我们展示了物理世界、生物世界、数字世界以及它们之间的联系,我也从人类大脑中数据的产生、积累与增长的具体方面写了第一份报告,同时与小组同学们共同研究讨论并完成了 PPT 的制作,这节课我最大的收获除了认真听了黄院长的报告之外就是我解决了对人类大脑的学习机制的模糊认识。第 2 篇的数据法则让我对数据世界的规律有了更深入的了解,同时也获取了有关半导体,晶体管以及摩尔定律等等的相关知识,而这次的个人报告我主要写的是数字世界给人类所带来的空间与自由,其中也重点探讨了元宇宙的相关知识并从多个方面全面分析了元宇宙的结构及未来发展趋势,这也为我和小组同学在大课上的汇报展示提供了一个知识基础。第3 篇的信息纽带则从多个方面为我们展示了信息科学的法则、信息的形式、压缩编码、纠错编码以及纠错编码等知识,并且也为我们补充了相当多的概率基础知识,而我也就从数据压缩的理论方法与现实意义的角度展开了深入的探究。
第 4 篇有关知识升华的内容也让我从一些具体的方面去重新认识知识这一抽象的概念,我也从对知识增长挑战的适应方法与自我实现方面写了一篇讨论报告,也让我有了一次很好的机会去思考知识爆炸的今天我们应该怎样去面对海量的信息并做到自我实现。第 5 篇自然智能也让我对人类的智能有了更深入的了解与思考,我也认真了解了书本外有关情绪智能的知识并做了一个扩展分析与总结。第六篇一共上了三次大课,周斌老师从头到尾为我们讲解了很多有关人工智能的知识,虽然课程难度有些大,但是我还是对人工智能以及其各种算法有了简单的了解,并且我同时也认识到自己在数学以及编程方面的欠缺,这让我更有动力去探索最前沿的信息科学知识。这门课程的设计除了最基本的老师讲课之外还增添了撰写个人研究报告以及小组讨论展示等环节,不仅让我收获了新的课本之外的知识,还让我养成了良好的网络学习能力,与人沟通的能力,有幸的一次大课汇报展示也锻炼了我的心态,给我未来的上台演讲以及做汇报更多的勇气,也很感谢小班老师给我和我的同学的一次机会以及老师的指导与帮助,我也是第一次在那么多人面前上台做汇报并且做到基本脱稿,虽然中间有些卡顿,但是在汇报后老师和同学都给了我很大的鼓励,我也因此更有信心去面对未来学习生活中所面临的困难和挑战,其实就在今天我的交叉创新选修课的最后汇报与答辩中,我基本做到了全程脱稿并且流畅而自信地回答了几位老师的提问,这也很大程度上依赖于那次大课汇报展示的锻炼。在此我想感谢小班老师和其他为我们带来精彩报告的老师,同时也感谢一直与我学习讨论并共同合作的同学们,是你们让我在这门课程中有了最大的收获!
参考文献
[1]黄卫平. 数据智能科学技术导论
[2]https://en.wikipedia.org/wiki/Natural_language_processing
[3]https://www.kdnuggets.com/2020/08/natural-language-processing-changing-data-analytics.html