自然语言处理 概览理解 NLP specialization - Supervised ML
Remember that understanding the data is one of the most critical steps in Data Science
自然语言处理可以实现语义识别,情感识别,文本翻译等等功能,当然最近情况下最火的便是ChatGBT的人工智能对话机器人。本人正在硕博的过渡期,深知新技术,新技能对于个人发展或者人类进步的重要性,象牙塔里的学习经历总不是非常的前沿和及时。因此在过渡期的三四个月内,我决定尝试去接触这些新技术和新技能,来充实自己,并开始认识人工智能的发展前景以及状况。
总体来说,自然语言识别包含一下几步:文本转换,模型构建,算法训练,测试验证。简而言之,我们需要将文本数据转义成计算机能识别的矩阵数值等等(word embedding)。其中文本转换有非常多的方式和技术,其中一种便是对出现次数做叠加,生成的数据叫做频次矩阵(frequency dictionary)。 然后根据所生成的数据,选择合适的机器学习方法来进行模型的训练。这些机器学习方法比如说逻辑回归,朴素贝叶斯, 近似最近邻(ANN)也会将一些资源放在我的CSDN中,比如说我上课附带的notebook练习题以及部分的答案。)等等方法去寻找特征。最后进行数据集的训练并且得到最终的模型参数。最后就是拿到测试集进行模型验证和测试,并找到模型中的问题和bug,再予以解决。
数据预处理
理解数据永远是数据科学最重要的一步,数据的预处理根据需求的不同重要包含以下几个步骤:
- 检查并去除脏数据 data cleaning
- 去除连接符或者停顿符 stop word
- 去除不重要的标点符号 punctuation
- 找出重要词语的词根 stemming
- 大小写识别统一 lower casing
数据处理的方法并不是一成不变的,主要用到一些正则表达式识别,字典数据集的匹配,词语和词根匹配等等方面,这方面需要具体情况具体分析。但是最终是将特征信息进行提取(feature extraction),使其可以被识别。
逻辑回归
在词语情感识别(sentiment analysis)中,如果仅仅区分好和坏,那么简单的逻辑回归便可以实现。逻辑回归是一种非常经典的监督机器学习算法,其提取训练集中的特性,并通过模型系统预测出结果,并和实际结果相比较计算损失,也就是Loss,最后通过最速下降的方式进行迭代求出模型最优的参数。
其sigmoid函数可以将向量空间中的样本映射到有限的正负值,通过调整theta在各个向量空间中的值来调整模型,也就是说,theta就是模型,模型就是theta。
朴素贝叶斯 (Naive Bayes)
朴素一词是源于特征不相关的假设,也就是我们假设不同的语义特征之间是不相关的,这将解耦后验概率的计算,得到一个相对正确的结果。
贝叶斯定律是在得知一定的先验概率,也就是告诉你一定的基本信息并估算出所研究事件发生的概率后,再根据训练集的特征数据,对先验概率进行一个修正,最后根据这两个概率的复合结果,来最终给出所研究事件发生的较准确的概率。
其包含以下几步:
- 得到标记的数据集 (数据标注,监督学习的特点)
- 对文本数据进行预处理 (对数据噪声,坏点进行清除)
- 计算频次对应矩阵 (提取训练集中的特征)
- 得到条件概率 (求出每个单词的(积极/消极)条件概率的比)
- 计算系统的log似然值 (通过乘积或者求和的方式进行句子语义判断)
- 计算log先验值 (这个适用于计算先验概率使用)
近似最邻近 (K-NN K nearest neighbor)
该算法通过计算和分析特征的距离来找到最相邻的邻居,并最后估计出一些近似的结果。比如说在中法翻译的应用上,通过对特征进行分析,找到中文某次在法文中的对应翻译问题,我们可以近似地找到词义相近的多个邻居,在各个邻居之间进行选择。但是对词库进行遍历会消耗大量的资源,效率很低。为了解决这个问题,我们用LSH局部敏感哈希算法来加速搜索的速度。LSH的原理便是将特征相近的词语装在同一个桶(bucket)里面,这样算法在寻找某个值得时候就可以计算其哈希值得方式快速找到存放的桶,并通过这样的方式来加速搜索。
本次博客先进行一个简单总结,之后每学习完一周就会有一个总结,并且将我的理解写在博客中,供大家查看,我也会将一些资源放在我的CSDN中,比如说我上课附带的notebook练习题以及部分的答案。