注意力机制简单理解

news2024/11/17 3:55:10

1. 什么是注意力机制?

​ 我们在日常的生活中对许多事物都有我们自己的注意力重点,通过注意力我们可以更加关注于我们注意的东西,从而过滤不太关注的信息。

  • 看到一张人像图时,我们会更关注人的脸部,其次根据脸部再细分我们个人的关注点,比如我更关注眼睛,你可以更关注鼻子、嘴巴等。然后为这些关注点内容赋予不同的权重,这个权重代表注意力的分配。

​ 注意力机制就是模仿人的注意力的一种识别机制,可以帮助机器像人一样筛选重要注意力特征。

2. 如何实现注意力机制?

  • 计算公式:image-20240110151349869

其中,image-20240110154254019计算相似值,通过softmax函数转化为概率权重,然后✖️V得到注意力值。

例子:淘宝搜索

  1. 查询:在淘宝搜索“笔记本“,查询Q

    image-20240110151544583

    网页中出现的最前面的笔记本推荐是淘宝推荐系统最希望我们注意的一些笔记本,这就是注意力机制实现的一种,那么其内部的机制是怎样的呢?我们接着往下进行分析。

  2. 计算相似性K:淘宝系统在拿到查询Q之后,将Q与后台现有的商品的关键字K进行对比,计算他们和查询之间的相似性得到一个暂且可以理解为权重的东西。

    这一步的主要作用就是搜索到是笔记本的商品。

  3. 价值V:每个商品都对应了一个价值V,这个价值的计算方式可能是淘宝内部的一个价值打分机制,可以根据商品的广告费、评价、销量等因素来综合得出。

    而这一步的作用就是得到是笔记本的商品之后,每个商品都是对应的价值VV越高就说明该商品的价值越高。

  4. 根据相似性计算商品的综合价值(给商品价值加上权重):权重✖️价值,得到商品的综合价值。然后系统根据综合评分进行排序,将排序后的笔记本呈现给用户。

    这个综合价值是相对于客户的搜索Q而言的。

3. 自注意力机制

自注意力机制是注意力机制的变体,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。

image-20240110170337045

自注意力机制在文本中的应用,主要是通过计算单词间的互相影响,来解决长距离依赖问题。

自注意力机制的计算过程,如上图所示:

1.将输入单词转化成嵌入向量;

2.根据嵌入向量得到qkv三个向量;

3.为每个向量计算一个score:score =q . k

4.为了梯度的稳定,Transformer使用了score归一化,即除以image-20240110170140524

5.对score施以softmax激活函数;

6.softmax点乘Valuev,得到加权的每个输入向量的评分v

7.相加之后得到最终的输出结果image-20240110170504069

例子:The animal didn't cross the street because it was too tired 这里的it到底代表的是animal还是street呢,对于我们来说能很简单的判断出来,但是对于机器来说,是很难判断的,self-attention就能够让机器把itanimal联系起来。利用了自注意力机制之后,可以得到下图所示的关联:

image-20240110171013521

说明注意力机制可以很好学习上下文的信息,得到不同词汇之间的注意力关系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1372139.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VScode 画图插件

开源免费的插件 随着http://draw.io开源vs code插件之后,它一跃成为最强大的流程图工具。 目前http://draw.io支持3种文件后缀,你只需要新建3种后缀之一的文件就可以在vs code中画流程图,它们分别是: *.drawio*.dio*.drawio.sv…

使用KubeSphere轻松部署Bookinfo应用

Bookinfo 应用 这个示例部署了一个用于演示多种 Istio 特性的应用,该应用由四个单独的微服务构成。 如安装了 Istio,说明已安装 Bookinfo。 这个应用模仿在线书店的一个分类,显示一本书的信息。 页面上会显示一本书的描述,书籍…

【JVM 基础】类字节码详解

JVM 基础 - 类字节码详解 多语言编译为字节码在JVM运行Java字节码文件Class文件的结构属性从一个例子开始反编译字节码文件字节码文件信息常量池方法表集合类名 再看两个示例分析try-catch-finallykotlin 函数扩展的实现 源代码通过编译器编译为字节码,再通过类加载…

06.构建大型语言模型步骤

在本章中,我们为理解LLMs奠定了基础。在本书的其余部分,我们将从头开始编写一个代码。我们将以 GPT 背后的基本思想为蓝图,分三个阶段解决这个问题,如图 1.9 所示。 图 1.9 本书中介绍的构建LLMs阶段包括实现LLM架构和数据准备过程、预训练以创建基础模型,以及微调基础模…

设计模式—行为型模式之策略模式

设计模式—行为型模式之策略模式 策略(Strategy)模式定义了一系列算法,并将每个算法封装起来,使它们可以相互替换,且算法的变化不会影响使用算法的客户。属于对象行为模式。 策略模式的主要角色如下。 抽象策略&…

uni-app分包预下载

模块的二级页面,按模块处理成分包页面,有以下好处: 按模块管理页面,方便项目维护。减少主包体积,用到的时候再加载分包,属于性能优化解决方案。 ::: tip 温馨提示 通过 VS Code 插件 uni-create-view 可…

对root用户的理解

1.什么是root用户? Windows、MacOS、Linux均采用多用户的管理模式进行权限管理。在Linux系统中,拥有最大权限的账户名为:root(超级管理员) root用户拥有最大的系统操作权限,而普通用户在许多地方的权限是受…

圣诞老人遇见 GenAI:利用大语言模型、LangChain 和 Elasticsearch 破译手写的圣诞信件

在北极的中心地带,圣诞老人的精灵团队面临着巨大的后勤挑战:如何处理来自世界各地儿童的数百万封信件。 圣诞老人表情坚定,他决定是时候将人工智能纳入圣诞节行动了。 圣诞老人坐在配备了最新人工智能技术的电脑前,开始在 Jupyter…

大气精美网站APP官网HTML源码

源码介绍 大气精美网站APP官网源码,好看实用,记事本修改里面的内容即可,喜欢的朋友可以拿去研究 下载地址 蓝奏云:https://wfr.lanzout.com/itqxN1ko2ovi CSDN免积分下载:https://download.csdn.net/download/huayu…

Spring MVC响应结合RESTful风格开发,打造具有强大功能和良好体验的Web应用!

响应与Rest风格 1.11.1.1 环境准备步骤1:设置返回页面步骤2:启动程序测试 1.1.2 返回文本数据步骤1:设置返回文本内容步骤2:启动程序测试 1.1.3 响应JSON数据响应POJO对象响应POJO集合对象 知识点1:ResponseBody 2,Rest风格2.1 REST简介2.2 RESTful入门案…

node的下载、安装、配置

下载: 官网下载:Node.js 左右两个都可以: 往期版本: Index of /dist/latest-v8.x/ 安装: 打开cmd: 输入以下指令,如果出现版本号说明安装成功 node -v npm -v 如果npm -v报错,就…

什么是Helm?它是如何提升云原生应用私有化部署效率的

转载至我的博客 ,公众号:架构成长指南 试想一下,如果有一个项目有50 个微服务,每个微服务都有service、deployment、ingress、pvc等 yaml 文件,算下来大概有 200 个文件,然后这个项目需要基于k8s进行私有化…

从零学Java List集合

Java List集合 文章目录 Java List集合1 List 集合2 List实现类2.1 ArrayList【重点】2.2 LinkedList2.3 Vector (已废弃) 3 数据结构: 栈, 队列 1 List 集合 特点:有序、有下标、元素可以重复。 有序: 添加与遍历的顺序是一致的;有下标: 可以使用普通for循环;元素可…

【NLP】多标签分类【上】

简介 《【NLP】多标签分类》主要介绍利用三种机器学习方法和一种序列生成方法来解决多标签分类问题(包含实验与对应代码)。共分为上下两篇,上篇聚焦三种机器学习方法,分别是:Binary Relevance (BR)、Classifier Chain…

实用Unity3D Log打印工具XDebug

特点 显示时间,精确到毫秒显示当前帧数(在主线程中的打印才有意义,非主线程显示为-1)有三种条件编译符(如下图) 注:要能显示线程中的当前帧数,要在app启动时,初始化mainThreadID字段条件编译符…

在App Store Connect上编辑多个用户的访问权限

作为一名编程新手,在App Store Connect中管理用户权限可能初听起来有些复杂,但实际上它是一个相对直接的过程。这里是一个步骤清晰的指南来帮助您在App Store Connect上编辑多个用户的访问权限。 App Store Connect 简介 在开始之前,让我们先…

爬虫网易易盾滑块及轨迹算法案例:某乎

声明: 该文章为学习使用,严禁用于商业用途和非法用途,违者后果自负,由此产生的一切后果均与作者无关 一、滑块初步分析 js运行 atob(‘aHR0cHM6Ly93d3cuemhpaHUuY29tL3NpZ25pbg’) 拿到网址,浏览器打开网站&#xff0…

【低照度图像增强系列(3)】EnlightenGAN算法详解与代码实现

前言 ☀️ 在低照度场景下进行目标检测任务,常存在图像RGB特征信息少、提取特征困难、目标识别和定位精度低等问题,给检测带来一定的难度。 🌻使用图像增强模块对原始图像进行画质提升,恢复各类图像信息,再使用目标检…

如何降低成本,制作个性化电子产品宣传册呢

​随着科技的飞速发展,电子产品已经深入到我们生活的每一个角落。然而,如何让你的产品在众多竞争者中脱颖而出呢?制作一份个性化的宣传册,不仅可以吸引潜在客户,还能有效降低成本,提升销售效果。 一、明确目…

基于JAVA+SpringBoot的高校学术报告系统

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取项目下载方式🍅 一、项目背景介绍: 智慧高校学术报告系统…