自然语言处理 概览理解 NLP specialization - Supervised ML

news2025/1/21 3:04:37

自然语言处理 概览理解 NLP specialization - Supervised ML

Remember that understanding the data is one of the most critical steps in Data Science

自然语言处理可以实现语义识别,情感识别,文本翻译等等功能,当然最近情况下最火的便是ChatGBT的人工智能对话机器人。本人正在硕博的过渡期,深知新技术,新技能对于个人发展或者人类进步的重要性,象牙塔里的学习经历总不是非常的前沿和及时。因此在过渡期的三四个月内,我决定尝试去接触这些新技术和新技能,来充实自己,并开始认识人工智能的发展前景以及状况。

总体来说,自然语言识别包含一下几步:文本转换,模型构建,算法训练,测试验证。简而言之,我们需要将文本数据转义成计算机能识别的矩阵数值等等(word embedding)。其中文本转换有非常多的方式和技术,其中一种便是对出现次数做叠加,生成的数据叫做频次矩阵(frequency dictionary)。 然后根据所生成的数据,选择合适的机器学习方法来进行模型的训练。这些机器学习方法比如说逻辑回归,朴素贝叶斯, 近似最近邻(ANN)也会将一些资源放在我的CSDN中,比如说我上课附带的notebook练习题以及部分的答案。)等等方法去寻找特征。最后进行数据集的训练并且得到最终的模型参数。最后就是拿到测试集进行模型验证和测试,并找到模型中的问题和bug,再予以解决。

数据预处理

理解数据永远是数据科学最重要的一步,数据的预处理根据需求的不同重要包含以下几个步骤:

  • 检查并去除脏数据 data cleaning
  • 去除连接符或者停顿符 stop word
  • 去除不重要的标点符号 punctuation
  • 找出重要词语的词根 stemming
  • 大小写识别统一 lower casing

数据处理的方法并不是一成不变的,主要用到一些正则表达式识别,字典数据集的匹配,词语和词根匹配等等方面,这方面需要具体情况具体分析。但是最终是将特征信息进行提取(feature extraction),使其可以被识别。

逻辑回归

在词语情感识别(sentiment analysis)中,如果仅仅区分好和坏,那么简单的逻辑回归便可以实现。逻辑回归是一种非常经典的监督机器学习算法,其提取训练集中的特性,并通过模型系统预测出结果,并和实际结果相比较计算损失,也就是Loss,最后通过最速下降的方式进行迭代求出模型最优的参数。

其sigmoid函数可以将向量空间中的样本映射到有限的正负值,通过调整theta在各个向量空间中的值来调整模型,也就是说,theta就是模型,模型就是theta。

11111

朴素贝叶斯 (Naive Bayes)

朴素一词是源于特征不相关的假设,也就是我们假设不同的语义特征之间是不相关的,这将解耦后验概率的计算,得到一个相对正确的结果。

贝叶斯定律是在得知一定的先验概率,也就是告诉你一定的基本信息并估算出所研究事件发生的概率后,再根据训练集的特征数据,对先验概率进行一个修正,最后根据这两个概率的复合结果,来最终给出所研究事件发生的较准确的概率。

其包含以下几步:

  • 得到标记的数据集 (数据标注,监督学习的特点)
  • 对文本数据进行预处理 (对数据噪声,坏点进行清除)
  • 计算频次对应矩阵 (提取训练集中的特征)
  • 得到条件概率 (求出每个单词的(积极/消极)条件概率的比)
  • 计算系统的log似然值 (通过乘积或者求和的方式进行句子语义判断)
  • 计算log先验值 (这个适用于计算先验概率使用)

在这里插入图片描述

近似最邻近 (K-NN K nearest neighbor)

该算法通过计算和分析特征的距离来找到最相邻的邻居,并最后估计出一些近似的结果。比如说在中法翻译的应用上,通过对特征进行分析,找到中文某次在法文中的对应翻译问题,我们可以近似地找到词义相近的多个邻居,在各个邻居之间进行选择。但是对词库进行遍历会消耗大量的资源,效率很低。为了解决这个问题,我们用LSH局部敏感哈希算法来加速搜索的速度。LSH的原理便是将特征相近的词语装在同一个桶(bucket)里面,这样算法在寻找某个值得时候就可以计算其哈希值得方式快速找到存放的桶,并通过这样的方式来加速搜索。

333

本次博客先进行一个简单总结,之后每学习完一周就会有一个总结,并且将我的理解写在博客中,供大家查看,我也会将一些资源放在我的CSDN中,比如说我上课附带的notebook练习题以及部分的答案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/151946.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java支付宝沙箱环境支付,官方Demo远程调试【内网穿透】

文章目录1. 下载当面付demo2. 修改配置文件3. 打包成web服务4. 局域网测试5. 内网穿透6. 测试公网访问7. 配置二级子域名8. 测试使用固定二级子域名访问在沙箱环境调试支付SDK的时候,往往沙箱环境部署在本地,局限性大,在沙箱环境中有多种支付…

MATLAB-一维插值运算

一维插值是指对一维函数进行插值。已知n1个结点(x,y,),其中x,互不相同(j0,1,2,... n),求任意插值点x*处的插值y*。求解一维插值问题的主要思想是:设结点由未知的函数g(x)产生,函数g(x)为连续函数且g(x)y;(j0,1,...,n);…

北大硕士LeetCode算法专题课---算法复杂度介绍

算法复杂度中大O的含义 推荐教程:北大硕士带你手撕Leetcode算法题 大O复杂度表示法 算法面试中, 经常会被问到,你写的算法复杂度是多少, 或者设计一个复杂度为 O(nlogn) 的算法复杂度分析是估算算法执行效率的方法,…

大厂的格局在细节上是怎么被拉低的

讲几个例子,都是大厂,作为大厂小散沙客户,也就是平头老百姓的角度来反观一下几个问题 第一个【脉脉】 今天(2023年1月9日)偶尔相等一下买买查看一下信息,由于手机没有安装APP.想借助PC的web端登录一下 它提…

小程序中无法播放阿里云的视频点播

背景视频直接存在自己的服务器,视频大了会存在卡顿现象,只能用阿里云或其它服务商的相关服务。原来在APP中已有了视频播放的功能,而且已经能正常使用,但视频的url是 http。现在期望在小程序中也添加视频播放的功能。初期操作申请相…

css——扁平圆弧(底部弧度)

案例演示 使用伪类处理,先将元素自身定位为relative,伪类设置content:‘’,并相对定位为absolute,再设置下left ,top 值,然后通过改变width和和left就可以调节弧度。宽度需大于100%,将left设为(…

微分方程(人口预测与传染病模型)

一、定义 微分方程:含导数或微分的方程 微分方程的阶数:所含导数或微分的最高阶数,如y’’’2y’’-2x0是三阶微分方程 微分方程的解:使得微分方程成立的函数 例如y’-2x0的解可以为x或者x1 微分方程的通解和特解:特…

基于Arduino Pro Micro的游戏手柄制作

基于Arduino Pro Micro的游戏手柄开发 1. Arduino IDE下载及安装 在Arduino官网Software | Arduino下载最新版Arduino IDE并安装。 或使用QQ群中提供的免安装版Arduino IDE,安装完成后Arduino Pro Micro的pin脚定义使用下面路径下的leonardo: 2. Arduino Pro Micr…

GrapeCity 文档处理商业系列Crack-6.0.2Version

GrapeCity 文档处理商业系列Crack文档 API 使用高速、直观的文档 API 全面控制您的文档 包括: Documents for Excel, .NET Documents for Data Viewer Documents for PDF Documents for PDF Viewer Documents for Word Documents for Imaging Documents for Image V…

数据库MySQL基础入门之MySQL隐式转换

一、问题描述 rootmysqldb 22:12: [xucl]> show create table t1\G *************************** 1. row *************************** Table: t1Create Table: CREATE TABLE t1 ( id varchar(255) DEFAULT NULL ) ENGINEInnoDB DEFAULT CHARSETutf8 1 row in set (0.0…

ArcGIS基础实验操作100例--实验74灾害影响缓冲区分析

本实验专栏参考自汤国安教授《地理信息系统基础实验操作100例》一书 实验平台:ArcGIS 10.6 实验数据:请访问实验1(传送门) 高级编辑篇--实验74 灾害影响缓冲区分析 目录 一、实验背景 二、实验数据 三、实验步骤 (…

剑指offer----C语言版----第十四天

表示数值的字符串 原题链接:剑指 Offer 20. 表示数值的字符串 - 力扣(LeetCode)1.1 题目描述 请实现一个函数用来判断字符串是否表示数值(包括整数和小数)。数值(按顺序)可以分成以下几个部分&a…

常见胶片的分类和结构

胶片的分类方法非常多,本质上属于高分子材料范畴,很多类别已经超出笔者的认知范围,我们只对与档案数字资源长期保存和异质备份相关的胶片分类方法进行介绍。笔者整理了十大分类如下图所示: 各分类简要介绍 1. 按宽度尺寸分类 常…

【Linux】进程信号万字详解(上)

🎇Linux: 博客主页:一起去看日落吗分享博主的在Linux中学习到的知识和遇到的问题博主的能力有限,出现错误希望大家不吝赐教分享给大家一句我很喜欢的话: 看似不起波澜的日复一日,一定会在某一天让你看见坚持…

194: vue+openlayers 根据卫星lat,lon,alt,俯仰角,方位角,绘制地面的拍摄的区域

第194个 点击查看专栏目录 本示例的目的是介绍演示如何在vue+openlayers项目中研究卫星的拍摄范围。 根据卫星的高度,经度,纬度,方位角,俯仰角以及拍摄的幅宽,幅长等参数,绘制拍摄的矩形框和中心点。这里用到了一些公式,参考代码,尤其是大部分使用的是弧度而非角度,需…

青铜到王者,8本最好的Python从入门到进阶的书

春节长假还有1周了,是时候囤一些书充充电了!新的一年群里很多小伙伴开始想学Python, 无论是准备转行的,还是想多学一份技能提高职场竞争力的,都想选择Python赛道,下面给大家推荐一些非常不错的Python入门到…

联合证券|利好叠加有望实质兑现 机构加码布局装修建材

组织加码布局装饰建材板块。据了解,受房地产利好方针带动、职业竞赛格式持续改进及原材料本钱下降等多重利好叠加,装饰建材板块有望迎来实质性利好,虽然曩昔两个多月来相关公司有所反弹,但组织以为行情仍然在路上。 多重利好推进 …

架构设计---高可用的处理

前言: 系统的高可用架构就是要在上述各种故障情况下,保证系统依然可用提供服务,具体包括以下几种架构方案。 冗余备份: 各种服务器故障是不可避免的,架构设计上就要保证,当服务器故障的时候,…

简短通俗理解动态规划算法--最短路径问题

问题:从某顶点出发,沿图的边到达另一顶点所经过的路径中,各边上权值之和最小的一条路径——最短路径。在博客动态规划算法中介绍了动态规划的基本思想已经建立动态规划模型的步骤,下面将其中的方法分析最短路径问题。 最短路径有…

CBAM: Convolutional Block Attention Module

https://arxiv.org/pdf/1807.06521.pdf 摘要: 我们提出了卷积块注意模块(CBAM),一个简单而有效的用于前馈卷积神经网络的注意模块。给定中间特征图,我们的模块依次推导出沿通道和空间两个独立维度的注意图,然后将注意图乘到输入…