NLP模型大对比:Transformer > RNN > n-gram

news2025/1/30 17:49:22

结论

Transformer 大于 RNN 大于 传统的n-gram

n-gram VS Transformer

我们可以用一个 图书馆查询 的类比来解释它们的差异:


一、核心差异对比

维度n-gram 模型Transformer
工作方式固定窗口的"近视观察员"全局关联的"侦探"
依赖距离只能看前N-1个词(如3-gram只看前2词)可关注任意距离的上下文
语义理解机械统计共现频率理解词语间的深层关系
典型场景"牛奶要配_" → "饼干"(高频搭配)"牛奶要配_" → "燕麦"(健康概念关联)

二、具体差异拆解

1. 观察范围限制
  • n-gram 像用 望远镜片段观察
    例:处理句子 "虽然价格贵但质量真的好"

    • 3-gram只能看到局部组合:
      ["价格_贵_但", "贵_但_质量", "但_质量_真"]

    • 无法关联首尾的 "价格" 和 "质量" 的对比关系

  • Transformer 像用 全景扫描仪
    通过自注意力机制,让每个词都能关注到句子中所有其他词:

    # "质量"对"价格"的注意力权重可能高达0.7
    # "但"对"虽然"的注意力权重可能达0.6
2. 语义关联能力
  • n-gram 的局限性案例
    输入: "苹果股价大涨,因为新品很甜"

    • 3-gram会错误关联:"新品_很_甜" → 可能预测"西瓜"(高频搭配)

    • 无法发现 "苹果" 在此处指公司而非水果

  • Transformer 的解决方案
    通过上下文注意力权重识别语义:

    "苹果" ← 关注到 "股价" (权重0.8) → 判定为企业  
    "甜"   ← 关注到 "新品" (权重0.3) + "股价" (权重0.6) → 判定为比喻用法
3. 处理新词能力
  • n-gram 的困境
    遇到新词 "元宇宙"

    • 所有包含 "元宇宙" 的n-gram都成为低频组合

    • 导致预测结果不可靠

  • Transformer 的优势
    通过词向量和注意力机制:

    • 即使没出现过 "元宇宙",也能根据词根 "元"+"宇宙"_ 推测其语义

    • 类似处理过 "元数据" 和 "宇宙探索" 的经验

n-gram VS RNN

n-gram 和 RNN 在自然语言处理中是两种截然不同的建模思路,我们可以通过 图书馆管理 的类比来理解它们的核心差异:


一、核心机制对比

维度n-gram 模型RNN 模型
记忆方式固定长度的纸质笔记可延展的电子备忘录
依赖距离只能记住前N-1步(如3-gram记2步)理论上可记忆无限步(实际约50-100步)
计算特征基于统计频次的查表操作基于隐藏状态的动态计算
典型表现"昨天买的_奶茶"→"珍珠"(高频搭配)"昨天买的_奶茶"→"已经变质"(因果推理)

二、工作原理拆解

1. 信息传递方式
  • n-gram 像 接力赛跑
    每个预测只依赖前一棒选手(前N-1个词):

    输入:"我想喝一杯热的"
    3-gram预测流程:
    想喝→杯 → 喝杯→热 → 杯热→的 → 热的→[END]
  • RNN 像 滚雪球
    通过隐藏状态积累历史信息:

    hidden_state = update("我", init_state)
    hidden_state = update("想", hidden_state)
    hidden_state = update("喝", hidden_state)
    # 当处理到"热"时,隐藏状态已包含"我/想/喝"的信息

3. 处理长距离依赖
  • n-gram 的局限案例
    句子:"虽然这款手机价格比同类产品高2000元,但它的_"

    • 5-gram只能看到"产品高2000元但它的"

    • 无法关联开头的"虽然"与结尾的预测

  • RNN 的优势体现
    通过隐藏状态传递,即使相距20个词:

    h_("虽然") → h_("价格") → ... → h_("它的") 
    仍保留着转折关系的语义特征

三、性能对比实验

以 诗歌生成 任务为例:

输入: "春风又绿江南岸"
模型续写结果得分
3-gram"明月何时照我还"(高频组合)合格但缺乏新意
RNN"细雨轻拂柳叶弯"(创新性关联)更具文学性
人类"万物复苏生机盎"标准答案

关键差异

  • n-gram依赖"江南岸"与"明月"的常见搭配

  • RNN捕捉到"春风"与"细雨"的意境关联

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2286533.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Rust自学】14.5. cargo工作空间(Workspace)

喜欢的话别忘了点赞、收藏加关注哦,对接下来的教程有兴趣的可以关注专栏。谢谢喵!(・ω・) 14.4.1. 为什么需要cargo workspace 假如说我们构建了一个二进制crate,里面既有library又有库。随着项目规模不断增长&#…

[权限提升] Windows 提权 — 系统内核溢出漏洞提权

关注这个框架的其他相关笔记:[内网安全] 内网渗透 - 学习手册-CSDN博客 0x01:系统内核溢出漏洞提权介绍 注意:提权很容易让电脑蓝屏,所以如果是测试的话,提权前最好做好系统备份。 溢出漏洞就像是往杯子里装水 —— 如…

手机端语音转文字的实用选择

今天推荐两款配合使用的软件:MultiTTS 和 T2S,它们可以在安卓设备上实现文字转语音功能。 第一款:MultiTTS(安卓) MultiTTS 是一款离线文本转语音工具,完全免费,提供多种语音风格,…

四.3 Redis 五大数据类型/结构的详细说明/详细使用( hash 哈希表数据类型详解和使用)

四.3 Redis 五大数据类型/结构的详细说明/详细使用( hash 哈希表数据类型详解和使用) 文章目录 四.3 Redis 五大数据类型/结构的详细说明/详细使用( hash 哈希表数据类型详解和使用)2.hash 哈希表常用指令(详细讲解说明)2.1 hset …

无心剑七绝《经纬岁华》

七绝经纬岁华 经天伟业梦初耕 纬地深沉志纵横 岁去年来添锦绣 华章曼妙筑新城 2025年1月29日 平水韵八庚平韵 无心剑七绝《经纬岁华》以“经纬岁华”为藏头,歌颂了泸州职业技术学院(川南经纬学堂)百余年的光辉历程。诗中“经天伟业梦初耕&…

大数据治理实战:架构、方法与最佳实践

📝个人主页🌹:一ge科研小菜鸡-CSDN博客 🌹🌹期待您的关注 🌹🌹 1. 引言 大数据治理是确保数据质量、合规性和安全性的重要手段,尤其在数据驱动决策和人工智能应用日益普及的背景下&…

区块链在能源行业的创新

技术创新 1. 智能合约与自动化交易 智能合约是区块链技术的核心组件之一,它允许在没有中介的情况下自动执行合同条款。在能源行业,这可以用于自动化电力交易、支付流程以及管理复杂的供应链。例如,当太阳能板产生的电量达到预设值时&#x…

C基础寒假练习(1)

一、求二维数组只中元并输出行标和列标(以二行三列为例)元素的最大值&#xff0c; #include <stdio.h>int main() {// 初始化二维数组int array[2][3] {{1, 2, 3},{4, 5, 6}};// 定义变量来存储最大值及其位置int max_value array[0][0];int max_row 0;int max_col 0…

SQLServer 不允许保存更改(主键)

在我们进行数据库表格编辑的时候,往往会出现同一个名字,就比如我们的账号一样,我们在注册自己QQ的时候,我们通常注册过的账号,别人就不能注册了,这是为了保证严密性 所以我们需要点击表格>右键>设计 点击某一列>右键>设计主键 当我们Ctrls 保存的时候回弹出下…

linux监控脚本+自动触发邮件发送

linux脚本 需求&#xff1a; CPU 负载&#xff1a;使用 uptime 命令&#xff0c;我们可以清楚地了解系统的 CPU 负载情况。这个命令会显示系统在过去 1 分钟、5 分钟和 15 分钟的平均负载。高负载可能意味着系统正在处理大量的任务&#xff0c;可能会导致性能下降或服务响应延迟…

Ollama本地部署deepseek-r1:7b

Ollama本地部署deepseek-r1:7b RTX2060 6GB显存可运行。 一、下载安装ollama ollama地址 二、设置环境变量 您可以右键点击“此计算机” > “切换到管理员”&#xff0c;然后以管理员身份运行 cmd setx OLLAMA_HOST 0.0.0.0 setx OLLAMA_ORIGINS *三、然后重启ollama …

2. Java-MarkDown文件解析-工具类

2. Java-MarkDown文件解析-工具类 1. 思路 读取markdown文件的内容&#xff0c;根据markdown的语法进行各个类型语法的解析。引入工具类 commonmark 和 commonmark-ext-gfm-tables进行markdown语法解析。 2. 工具类 pom.xml <!-- commonmark 解析markdown --> <d…

研发的立足之本到底是啥?

0 你的问题&#xff0c;我知道&#xff01; 本文深入T型图“竖线”的立足之本&#xff1a;专业技术 技术赋能业务能力。研发在学习投入精力最多&#xff0c;也误区最多。 某粉丝感发展遇到瓶颈&#xff0c;项目都会做&#xff0c;但觉无提升&#xff0c;想跳槽。于是&#x…

react中如何获取dom元素

实现代码 const inputRef useRef(null) inputRef.current.focus()

19.Word:小马-校园科技文化节❗【36】

目录 题目​ NO1.2.3 NO4.5.6 NO7.8.9 NO10.11.12索引 题目 NO1.2.3 布局→纸张大小→页边距&#xff1a;上下左右插入→封面&#xff1a;镶边→将文档开头的“黑客技术”文本移入到封面的“标题”控件中&#xff0c;删除其他控件 NO4.5.6 标题→原文原文→标题 正文→手…

DeepSeek回答量化策略对超短线资金的影响

其实最近很长一段时间我在盘中的感受就是量化策略的触发信号都是超短线选手经常用到的,比如多个题材相互卡位,近期小红书-消费,好想你,来伊份 跟 算力 电光科技,机器人 金奥博 冀凯股份 五洲新春 建设工业 ,这些票的波动其实都是被量化策略锚定了,做成了策略异动。特别…

无耳科技 Solon v3.0.7 发布(2025农历新年版)

Solon 框架&#xff01; Solon 框架由杭州无耳科技有限公司&#xff08;下属 Noear 团队&#xff09;开发并开源。是新一代&#xff0c;面向全场景的 Java 企业级应用开发框架。从零开始构建&#xff08;非 java-ee 架构&#xff09;&#xff0c;有灵活的接口规范与开放生态。…

常见的多媒体框架(FFmpeg GStreamer DirectShow AVFoundation OpenMax)

1.FFmpeg FFmpeg是一个非常强大的开源多媒体处理框架&#xff0c;它提供了一系列用于处理音频、视频和多媒体流的工具和库。它也是最流行且应用最广泛的框架&#xff01; 官方网址&#xff1a;https://ffmpeg.org/ FFmpeg 的主要特点和功能&#xff1a; 编解码器支持: FFmpe…

本地部署Deepseek R1

最近Deepseek R1模型也是彻底火出圈了&#xff0c; 但是线上使用经常会受到各种限制&#xff0c;有时候还会连不上&#xff0c;这里我尝试本地部署了Deepseek 的开源R1模型&#xff0c;具体的操作如下&#xff1a; 首先登陆ollama平台&#xff0c;Ollama.ollama平台是一个开源…

深入解析 .NET 命名管道技术, 通过 Sharp4Tokenvator 实现本地权限提升

01. 管道访问配置 在 .NET 中通常使用 PipeSecurity 类为管道设置访问控制规则&#xff0c;用于管理命名管道的访问控制列表&#xff08;ACL&#xff09;。通过这个类&#xff0c;可以为命名管道配置精细化的安全权限&#xff0c;从而控制哪些用户或用户组能够访问管道&#x…