DeViSE: A Deep Visual-Semantic Embedding Model

news2025/1/17 21:34:29

摘要

现代视觉识别系统受限于其能力为:扩大大规模数量的目标类别。

  • scale to large numbers of object categories
  • text data :文本数据
  • 这篇文章我们提出一个a new deep visual-semantic embedding model
  • 从unannotated text 中收集的语义信息和有标签的图像数据。
  • on the 1000-class ImageNet object recognition

介绍

  • artificially assigning images to a small
    number of rigidly defined classes

  • Previous Work

目前顶级的图像分类的方法是:

  • 训练一个a deep convolutional neural networkwith a softmax output layer: multinomial logistic regression
  • 其实越来越困难的从罕见概念中得到足够多数量的训练数据。
  • W S A B I E WSABIE WSABIE
  • a joint embedding model of both images and labels.
  • 方式:employing an online learning-to-rank algorithm
  • explored linear mappings from image features to the embedding space
  • the image representation space: 图像表示空间
  • the embedding space嵌入空间。
  • a mean-squared error criterion: 均方误差标准
  • the 8-way classification 八种类别的Classification.

Proposed Approach

  • semantic knowledge learned in the text domain:文本域中学习到的语义知识。
  • vector representation of the image label text: 图像标签文本的词向量表示。

Language Model Pre-training

  • The skip-gram text modeling architecture: 由其提出 M i k o l o v e t a l Mikolov et al Mikolovetal
  • represent each term as a fixed length embedding vector 代表每一项作为一个固定长度的嵌入向量。
    在这里插入图片描述
  • 训练一个a skip-gram text model
  • Visual Model Pre-training

在这里插入图片描述

Deep Visual-Semantic Embedding Model

  • is initialized from these two pre-trained neural network model
  • 语言模型学习的嵌入向量,
  • 在这里插入图片描述
    • a combination of dot-product similarity and hinge rank loss
  • 在这里插入图片描述
  • Results

    • a softmax baseline model
  • a 1000-way softmax classifier
  • a ranodm embedding model
  • 在这里插入图片描述
  • ImageNet (ILSVRC) 2012 1K Results

  • 在这里插入图片描述
  • Generalization and Zero-Shot Learning

在这里插入图片描述

在这里插入图片描述

  • To test this hypothesis:为了验证这个假设,
    在这里插入图片描述
    !在这里插入图片描述

Colusion

  • joint visual-semantic enbeddug model
  • a hierarchical label metric
  • 在这里插入图片描述

经验

重点是总结以下,常见的不熟悉的词汇,慢慢的将其全部都研究彻底,

  • 训练模型的时候,在将各个层总结以下,会知道如何构建网络架构,设计自己的架构环境。会自己总结网络架构,设计自己的架构思想都行啦的理由与打算。
  • 慢慢的将各种网络架构,全部都将其搞彻底,全部都将其理解错误都行啦的理由与打算。
  • 自己设计自己的网络架构,慢慢的将各种网络架构全部都设计完整,会自己设计自己的架构与架构层次。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/161962.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

经纬恒润荣膺2022年度中国港口协会科学技术奖一等奖!

近日,2022年度中国港口协会科学技术奖评终审答辩会在青岛圆满闭幕,经纬恒润和山东港口日照港集装箱发展有限公司共同申报的“顺岸开放式全自动化集装箱码头集卡无人驾驶关键技术研究和应用”获得2022年度中国港口协会科技进步奖一等奖。 中国港口协会科学…

[go]深入学习Go总结

Go 深入学习 文章目录Go 深入学习编译过程概念编译四阶段词法分析 语法分析类型检查中间代码生成机器码生成类型系统分类底层类型类型相同类型赋值类型强制转换类型方法自定义类型方法方法调用方法调用时的类型转换类型断言接口类型查询数据结构数组初始化访问和赋值切片数据结…

【Java】Java的面向对象笔记(上)(二)

再谈方法 Overload 重载 定义:在同一个类中,允许存在一个以上的同名方法,只要它们的参数个数或者参数类型不同即可。 两同一不同 同一个类、相同方法名参数列表不同:参数个数不同,参数类型不同,参数顺序不…

SpringBoot 数据源的自动配置HikariDataSource以及使用Druid数据源

目录 (一)、数据源的自动配置-HikariDataSource 1、导入JDBC场景 2、分析自动配置 3、修改配置项 4、测试 (二)、使用Druid数据源 1、druid官方github地址 2、自定义方式 3、使用官方starter方式 (一&#xf…

汇编语言【王爽】实验一、二

实验一:查看CPU和内存,用机器指令和汇编指令编程 debug环境搭建:参考此文 assignment 1 用A命令向内存中写入汇编指令,用U命令查看 用R命令分别修改CS、IP寄存器,即CS:IP的指向,用T命令逐条执行 assignm…

小兔子在终端给大家拜年啦

小兔子在终端给大家拜年啦前言创作过程小兔子模型制作实现思路代码小结耐心和持久胜过激烈和狂热。 哈喽大家好,我是陈明勇,本文分享的内容是 使用 Go 语言实现小兔子在终端给大家拜年。如果觉得作品有趣,不妨点个赞,如果本文有错…

【学习笔记】决策树 (1.简介+基本构建思想)

简单问题引入 如何判断今天是什么季节?春天、夏天、秋天、冬天? 如果是我们的话,可以通过日期一下子知道今天的季节——“7月份,所以是夏天!”大概是这样的发言。 但如果不让你通过日期来判断呢?选择还是…

摸鱼快报:golang net/http中的雕虫小技

以后会开一个板块,摸鱼快报,快速记录这几周开发中雕虫小技, 也算一个错题集。1. 向开发环境localhost:3000种植cookie前端使用Create React App脚手架,默认以localhost:3000端口启动;后端使用golang-gin框架&#xff0…

python在多卡服务器中指定某块显卡允许程序 -- 本机为mac,服务器为Linux, nvidia

1 在pychram环境变量中设置 在pycharm端操作,操作步骤如下: (1)操作右上角:Edit Configurations... (2)在 Edit Configurations界面可以选择设置哪个程序的cuda,如图: (3&#xff0…

java基于ssm框架开发的视频论坛网站源码

简介 Java基于ssm开发的视频论坛网站,普通用户可以浏览视频搜索视频评论点赞收藏视频,关注用户。还可以浏览新闻,发布帖子到论坛。 演示视频 https://www.bilibili.com/video/BV15T4y1P7kk/?p2&share_sourcecopy_web&vd_sourceed0…

【阶段三】Python机器学习24篇:机器学习项目实战:XGBoost回归模型

本篇的思维导图: 项目实战(XGBoost回归模型) 项目背景 为了降低不良贷款率,保障自身资金安全,提高风险控制水平,银行等金融机构会根据客户的信用历史资料构建信用评分卡模型给客户评分。根据客户的信用得分,可以预估客户按时还款的可能性,并据此决定是否发放贷款…

DX-BT18 双模蓝牙模块介绍

DX-BT18双模蓝牙模块简介DX-BT18 双模蓝牙模块是深圳大夏龙雀科技有限公司专为智能无线数据传输而打造,遵循蓝牙4.2标准协议的双模蓝牙模块(Dual-Mode) 同时支持 BT3.0 Classic 和 BT4.2 BLE模式。 DX-BT18模块应用于无线数据传输领域&#x…

72.全卷积神经网络(FCN)及代码实现

语义分割是对图像中的每个像素分类。 全卷积网络(fully convolutional network,FCN)采用卷积神经网络实现了从图像像素到像素类别的变换 。 与我们之前在图像分类或目标检测部分介绍的卷积神经网络不同,全卷积网络将中间层特征图的…

【正点原子FPGA连载】 第十九章 LED灯闪烁实验 摘自【正点原子】DFZU2EG/4EV MPSoC 之FPGA开发指南V1.0

1)实验平台:正点原子MPSoC开发板 2)平台购买地址:https://detail.tmall.com/item.htm?id692450874670 3)全套实验源码手册视频下载地址: http://www.openedv.com/thread-340252-1-1.html 第十九章 LED灯闪…

聊聊Go与TLS 1.3

除了一些综述类文章和译文,我的文章选题多来源于实际工作和学习中遇到的问题。这次我们来聊聊近期遇到一个问题:如何加快基于TLS安全通信的海量连接的建连速度?TLS(Transport Layer Security)传输安全层的下面是TCP层,我们首先可能会想到的是…

【魅力开源】第4集:今天不讲ODOO,今天讲“中小企业的信息化如何做”

文章目录前言一、中小企业很重要二、企业全要素三、信息化逐步全面覆盖1. 信息化落地路径2. 消除信息孤岛是信息化的关键环节3. 中小企业信息化正在从产品市场向服务市场转变最后前言 在软件公司打补丁,我并不快乐 看到中小企业挣扎现状,让我痛苦 能够帮…

2023年最新黑马程序员Java微服务项目--学成在线

正式上线Java微服务项目《学成在线》 项目对程序员的重要性 不用播妞多说了吧 更重要的是 这次是完整!实战!企业级!项目! 划重点:全新发布!正式上线! 《学成在线》项目以在线教育业务为基础…

Spring AOP【用户登陆统一验证功能】

Spring AOP【用户登陆统一验证功能】🍎一. 用户登陆统一验证功能🍒1.1 用户登录验证的几种方法🍒1.2 创建前端页面🍒1.3 创建登陆方法和欢迎进入方法🍒1.4 自定义一个拦截器🍒1.5 验证拦截功能&#x1f349…

API--应用层之间的应用程序接口

API的前言互联网的应用特点是具有开放式的业务体系结构之一。关键的技术就是网络控制与应用层之间的应用程序接口--API。通过API接口很多问题便水到渠成,迎刃而解 。API到底是一种什么技术呢具有开放式的业务体系结构将是下一代网络的重要特征之一。其中&#xff0c…

干货 | APP和小程序在开发有什么区别?

随着互联网的不断进步,移动终端在生活中的应用也越来越多。 据工信部数据显示,截至2022年11月底,国内市场监测到的APP数量为272万款,其中App Store(中国区)的APP数量为136万款,本土第三方应用商店(主要是安…