蔚来汽车AI算法工程师,如何理解注意力?

news2024/11/26 22:36:36

大家好啊,我是董董灿。

今天分享一个上海蔚来汽车的AI算法岗位面试经验总结帖,面试岗位为算法工程师。

这次面试提到的问题,除了与实习相关内容和反问之外,面试官总共问了8个问题,主要集中在度学习基础概念的理解上,在聚焦一点讲是集中在自然语言处理相关的算法理解上。

图片

看了这个面经贴,我突然想到帖子中到的很多知识点,我写的文章都提到过。

比如梯度消失和梯度爆炸的原因,这一点在介绍激活函数时曾经提到过(点这里),LSTM 的更新门的原理(点这里)。

除了一些较简单的算法理解之外,面试中还重点问到了注意力机制的内容

正好最近我在整理和撰写注意力机制相关的文章,比如如何理解AI模型的“注意力”?、用矩阵乘法来揭示注意力的分配、当注意力遇到 AI 模型等。

你可以点击上面的三个链接看一下相关的文章,相信你会对注意力这一重要的机制有更深刻的认识。

接下来,我将通过两个论文中的例子,来展示一下在AI模型中,注意力机制时如何帮助模型完成对于输入数据的注意的。

1、文本阅读

论文地址:

https://arxiv.org/pdf/1601.06733

文本阅读任务是让AI完成文本的阅读,并且可以理解文本所表达的意思,在这篇论文中,作者使用自注意力机制来完成机器阅读的任务。

所谓自注意力(Self-Attention)的关键是:计算同一个序列中不同位置的注意力关系,自注意力在文本阅读/文本总结/图像描述等场景中非常有效。

下面的图像展示了模型在完成文本阅读过程中,处理每个单词时更加关注其他的哪些单词,以此来提取词与词之间的关系,从而更好地理解句子。

上图中,红色的词为模型当前正在识别的词,蓝色阴影的词表示此时模型更加关注的其他词,也就是说和红色的词更加有关联的词。

可以看到,当模型观察到 chasing 单词时,会注意到与 chasing 更加有关系的是 FBI 和 is.

2、文本描述

论文地址:

https://proceedings.mlr.press/v37/xuc15.pdf

这篇论文完成的是图像描述任务(输入一张图像,输出对于这张图像的描述语言)。

作者利用注意力机制来完成图像的信息捕捉。使用的仍然是典型的 Encoder-Decoder 架构。只不过因为输入数据是图像这种结构化的数据,因此,Encoder 采用的 CNN 来完成图像的特征提取,而 Decoder则采用了 LSTM 完成图像特征到描述文字的转换。

图片

下图展示了在这个过程中,模型在输出每个描述单词时,其注意力更多地关注在图像中的哪些地方。

图片

模型在看到上述的图像后,输出的描述为:A woman is throwing a frisbee in a park。可以看到,当输出 woman 的时候,模型更加关注图中的人物,而当输出 a frisbee(一个飞盘)时,模型更加关注图中的红色飞盘部分。

说明注意力机制在处理图像这种结构化的数据中也具有非常好的效果。


我的技术专栏已经有几百位朋友加入了,如果你也希望了解AI技术,学习AI视觉或者大语言模型,戳下面的链接加入吧,这可能是你学习路上非常重要的一次点击呀!

  • AI 视觉入门专栏(第三版)完成
  • 我的Transformer专栏努力更新中

这里还有一个AI视觉入门的1对1训练营,训练营将带你深入理解AI视觉算法、从零手写AI视觉模型。如果你希望快速入门AI视觉,可以点这里查看训练营介绍。

最后,送一句话给大家:生活不止眼前,还有诗和远方,共勉~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1845421.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

裁员裁到大动脉,是一种什么体验!

大家好啊,我是董董灿。 降本增效是每个当老板的人都喜欢挂在嘴边的口头禅,尤其是行业不景气,公司发展遇到瓶颈的时候。 大部分公司降本增效的手段其实非常相似,比较容易实施的手段也就那几种。 要么搞设备自动化和流程自动化&a…

Ubuntu 22.04.1 安装ubuntu有道词典时错误发生

1. Ubuntu环境版本 Linux lipan-Precision-T1700 6.5.0-26-generic #26~22.04.1-Ubuntu SMP PREEMPT_DYNAMIC Tue Mar 12 10:22:43 UTC 2 x86_64 x86_64 x86_64 GNU/Linux 2. 有道词典 下载ubuntu系统的deb安装包。 网易有道翻译-支持文本翻译、文档翻译、AIBox英文写作、智…

LoRa126X系列LoRa模块:专为物联网设计而生

LoRa126X是思为无线研发的一款应用于物联网应用的LoRa 前端模块系列,采用 Semtech 公司的 SX1262和SX1268 芯片。该系列模块具有小体积、低功耗,高灵敏度等特点,并且严格遵循无铅工艺生产和测试流程,符合 RoHS 和 Reach 环保标准。…

重学java 80.Junit单元测试

我总是着急的解释我自己,却忘了厚爱无需多言 —— 24.6.21 一、Junit介绍 1.概述 Junit是一个单元测试框架,可以代替main方法去执行其他的方法 2.作用 可以单独执行一个方法,测试该方法是否能跑通 3.注意 Junit是第三方工具,所以使用之前需要导入jar包 二、J…

HTML和CSS基础(一)

前言 HTML(HyperText Markup Language)是一种用于创建网页的标准标记语言。它由各种标签组成,这些标签定义了网页的结构和内容。HTML的早期形式诞生于1989年,由CERN的物理学家Tim Berners-Lee发明,最初用于在科学家之…

Laravel - excel 导入数据

在Laravel中,可以使用maatwebsite/excel这个库来处理Excel文件的导入。 1.用命令行窗口打开项目根目录,使用 Composer 安装 maatwebsite/excel composer require maatwebsite/excel --ignore-platform-reqs 在你的config/app.php文件中注册服务提供者&…

二轴机器人大米装箱机:推动行业持续发展

随着科技的不断发展,机器人技术已经深入到各行各业,为传统生产带来了巨大的变革。其中,二轴机器人大米装箱机以其独特的技术特点和应用价值,正在引领大米包装行业的新潮流。 二轴机器人大米装箱机采用了先进的机械臂设计&#xff…

初阶 《数组》 2. 二维数组的创建和初始化

2. 二维数组的创建和初始化 2.1 二维数组的创建 //数组创建 int arr[3][4]; char arr[3][5]; double arr[2][4];2.2 二维数组的初始化 //数组初始化 int arr[3][4] {1,2,3,4}; int arr[3][4] {{1,2},{4,5}}; int arr[][4] {{2,3},{4,5}};//二维数组如果有初始化&#xff…

Wine 安装GDI

如上发图,安装的时候可能出现错误: Cannot find cabextract. Please install it (e.g. sudo apt-get install cabext 解决方案: 终端执行: sudo apt-get update sudo apt-get install cabextract

使用 MLRun 和 MinIO 设置开发机器

MLOps 之于机器学习,就像 DevOps 之于传统软件开发一样。两者都是一组旨在改善工程团队(开发或 ML)和 IT 运营 (Ops) 团队之间协作的实践和原则。目标是使用自动化来简化开发生命周期,从规划和开发到部署和…

来聊聊redis文件事件驱动的设计

写在文章开头 近期团队安排变得比较紧急,关于redis系列的更新相对放缓一些,而我们今天要讨论的就是redis中关于事件模型的设计,我们都知道redis通过单线程实现高效的网络IO处理,本文会从源码的角度来讲解一下redis中文件事件驱动…

国内怎样使用GPT4 turbo

GPT是当前最为熟知的大模型,它优越的性能一直遥遥领先于其它一众厂商,然而如此优秀的AI在中国境内却是无法正常使用的。本文将告诉你4种使用gpt4的方法,让你突破限制顺利使用。 官方售价是20美元/月,40次提问/3小时,需…

CSDN自定义模块全攻略,DIY系统原有样式打造专属个性化主页!

个人主页:学习前端的小z 个人专栏:HTML5和CSS3悦读 本专栏旨在分享记录每日学习的前端知识和学习笔记的归纳总结,欢迎大家在评论区交流讨论! 文章目录 💯如何通过HTMLCSS自定义模板diy出自己的个性化csdn主页&#x…

Developer Day北京站倒计时三天|请查收您的参会指南!

MongoDB Developer Day 6/22北京站 倒计时3天,期待您的出席! 请收藏您的行前温馨贴士⬇️ MongoDB Developer Day 专为开发者打造的动手实操工作坊和模型设计优化专场! 本活动针对开发者和产品负责人设计,旨在学习NoSQL数据建…

同三维T80004EH-N HDMI高清NDI编码器

1路HDMI 1路3.5音频输入,支持NDI 产品简介: 同三维T80004EH-N 高清HDMI编码器是专业的NDI高清音视频编码产品,该产品支持1路高清HDMI音视频采集功能,1路3.5MM独立音频接口采集功能。编码输出双码流H.265/H.264格式,音频MP3/AAC格…

初阶 《数组》 3. 数组越界

3. 数组越界 数组的下标是有范围限制的。 数组的下规定是从0开始的,如果数组有n个元素,最后一个元素的下标就是n-1。 所以数组的下标如果小于0,或者大于n-1,就是数组越界访问了,超出了数组合法空间的访问。 C语言本身…

VUE面试题汇总(九)

之间联系(Model 和 ViewModel 的双向数据绑定) 解析: MVVM 是 Model-View-ViewModel 的缩写。MVVM 是一种设计思想。Model 层代表数据模型,也可以在 Model 中定义数据修改和操作的业务逻辑;View 代表 UI 组件&#xf…

种子流媒体服务器TorrServer

什么是 TorrServer ? TorrServer 是一个允许用户在线查看种子而无需预先下载文件的程序。 TorrServer 的核心功能包括缓存种子以及通过 HTTP 协议进行后续数据传输,允许根据系统参数和用户的互联网连接速度调整缓存大小。 软件特点 缓存流媒体本地和远程…

金蝶云星空与MES系统深度集成对接案例全公开

项目背景 深圳市某自动化设备有限公司,自2006年成立以来,一直专注于高端精密自动化设备的研发、生产与销售。作为一家高科技企业,公司依托深圳这一经济特区的地理优势,构建了覆盖全国的服务网络,并拥有两个先进的生产…

爬虫超详细介绍

爬虫(Spider)是一种自动化程序,用于在互联网上获取信息。 其工作原理主要可以分为以下几个步骤: 发起请求: 爬虫首先需要向目标网站发起HTTP请求,以获取网页的内容。这个请求可以包含一些额外的信息&…