跨模态检索问题的描述
图1:跨 模 态 检 索 的 形 式 。 跨 模 态 检索 允 许 查 询 样 例 和 候 选 对 象 属 于 不 同 模 态 的 数 据 , 比 如 图 像搜索文本 , 文 本 搜 索 视 频 等 , 这 种 灵 活 多 变 的 检索方 式 能 够 满 足 用 户 更 多 的 检索需 求
图2:过 文本 搜 索 图 像 的 跨 模 态 检索 流 程 。 跨 模 态 检 索 技 术 首先 计 算 查 询 和 候 选 对 象的 跨 模 态相 关 度 , 然 后 根 据 相 关 度对 候 选 对象 进 行 排 序 , 从 而 得 到 最 终 的 检 索 结 果 。
在跨模 态 检 索 中 , 关 键 的 困 难 在 于 不 同 模态 的 多 媒 体 数 据 之 间 存在很 大 的 “ 异 构鸿沟 " , 底 层 表 示 通 常 是 异 构 的 ( 例 如文本 由 不 同 单 词 排 列 组 成 , 而 图 像 由 不 同 像素 排 列 组 成 ) 。底层 表 示的 差 异 使 得 不 同 模 态数 据的 特 征 表 达 不 能 直 接 进行 比 较 , 从 而 导 致 不 能 直 接 比 较 计 算 它 们的相 关 度 。
主 要 的方 法 可 以 分 为 两 大类 : 基 于 公共 空 间 学 习 的 方法 和 基 于 相 关 性 度 量 的 方 法。
- 基 于 公 共 空 间 学 习 的 方 法 通 过 为 不 同 模 态 的 多 媒体数 据 学 习 一 个 统 一 的 公 共 空 间 并 将 数 据在 所 学 到的 空 间 中 表 达。
- 基于 相 关 性 度 量 的 方 法 并 不 学 习 公 共 空 间 , 而 是 通 过 分 析 挖 掘 跨 模态 数 据 之 间 的 关联关 系 直 接 预 测 跨 模 态数 据 之 间 的相 关 度
研究问题的提出
1) 在跨 模 态检 索 中 , 不 管是 基 于 公 共 空 间学 习 的 方 法 还 是 基 于 栢 关 性 度 量 的方 法 , 其 前提 必 须 先 对 各 种 不 同 模 态的 数 据 进 行 特 征 表 达 , 从 而 在 此 基 础上 建 摸 计算 跨 模 态相 关 度。对 不 同 模 态 数 据 的 特 征 表 达 好 坏 会 直 接 影 响 跨模 态检 索模 型 的 性 能 , 因 此 对数 据 的特 征 表 迗 是 必 不 可 少 也 是 至 关重要的一 步。
问题一:在 基 于 文 本 和 视 频 的 跨 模 态检 索 应 用 背 景 下 , 如 果 获 取 表 达序 列 数 据 ( 文 本 、 视 频 ) 的 显 著 信 息 ?
2 ) Q2. 是 否 存在 更 好 的 公 共 空 间来计 算 跨 模 态 数据 之 间 的 相 关 度 ?
- 基 于 公 共 空间学 习 的 方 法 可 以提前将 所有 候 选 数 据 在 公 共 空 间 进 行 表 示 , 这 有 利 于 大 规模的 跨 模 态 检 索 ; 给 定 一 个查 询 , 只 需 将 该 查 询 在 公 共 空 间 中 进 行 表 达 , 计 算 给 定 查询 和 候 选 数 据 在 公 共 空 间 的 距 离 并 对 候 选 数 据 进 行排序从 而 实 现 检 索 任 务 。 其 主 流 方 法的 思 想 是 通 过 学 习 两 个 线 性 或 非线 性映 射 分 别将 两 种 不 同 模 态 的 数据 投 影 到 一 个 公 共 的 潜 在 子 空 间中 。
- 而 基 于 相 关性 度 量的 方 法 不 能 提 前 进 行 计 算 , 需 同 时 给 定 不 同 模 态 数据 对 ( 比 如 , 图 像 句 子 对 ) ; 在 查 询 样 例 到来 前 无 法 进 行 提 前 计 算 , 这 限 制 了 该 类 方 法在大 规 模 条 件 下 的 应 用
3 ) Q3. 如何 评 测 模 型 在 真 实 环 境 下 的 表 现 从 而 更 深 入 的 了 解 模 型 ?
4 ) Q4 . 如 何 进 行 跨 模 态相 关 度 的 融 合 ?
对 于 一 般 多 媒 体 分 析来 说 , 融 合 多 种 信 息 来 源 是 有 益 的
相关工作综述
跨模态数据表达
文 本 , 图 像 和 视 频 , 这 些 数 据 的 传 统 特 征 表 达 和 目 前流 行的 基 于 深 度 学 习 的 特 征表 达 。
文本
-
给 定 一 个 文本 ( 一 个词 , 一 句 话 或者 一 个 文 档 ) , 绝 大 多 数 的 机 器 学 习 方法 通 常需要 将 输 入 文 本 表 示 成 一 个 固定长 度 的 特 征 向 量 。 传 统 方 法 是利 用 词 袋 模 型 ( B ag - o f- words , B oW ) , 该 模 型会 忽 略 文 本 的 语 法 和 单 词 的 顺 序 等 要 素 , 仅 仅 将 其 看 作 是 若 干 个 单 词 的 集 合。
-
在 神 经 网 络 语 言 摸 型 中 , 词 的 表 达 被 称为 分 布 式 的 词 表 达 该概 念 最 早 是 H i nt o n 等 人 在 1 98 6 年的 文 献 [ 3 6] 中提出 , 通 常也 被 称为词 向 量 ( Wo rd R e pres en t at i o n , Wor dE m b e dd i n g ) 。 词 向 量 的 核 心 思 想 是 , 对 于 词 典 中 的 每 个 词 用 一 个 固 定 长 度 的 实 数低 维 向 量 来 表 示。
词 向 量 的 主 要 优 点 是 能够 抓 住 词 语 词 之 间的 联 系 , 使 得相 关或者 相 似 的 词 在 距 离 ( 比 如余 弦 距 离 ) 上 更 接 近 了。
对 于 句 子 和 文 挡 这 类 文 本 的 表 达 , 其 难 点 在 于 句 子 和 文 挡的 长度 不 定 。 一 种 筒单 的 方 法 是 对 文 本 的 词 向量 进 行 池 化 ( p o o li n g ) 操 作 , 最 常 见 是 平 均 池 化 。 平 均 池 化 将 文 本 中 每 个单 词 对 应的 词 向 量 的 均 值 作 为文 本 的 表 达 。 虽 然 平 均 池 化 简单 , 但 其 会 丟失 过 多 的信 息 , F i s h e rVe c t or 编 码 通 过 对 词 向 量 的 分 布 进 行 建 摸 ( 通 常使 用 混合 高 斯 模 型 ) 以保留 更 多 的 信 息 。
循 环神 经 网 络 ( R ec ur ren t N e ur a l N e t w o rk s , R N N ) 是 一 种 对 于 输 入 的 先 后 顺 序敏 感 的 模 型 , 其 经 常 被 用 来 对较 长 的 句 子 进 行 表 达 从 而 捕获 词 之 间 的 顺 序 信息 。最受 欢 迎的 R N N 模 型 是 长 短 期记 忆 网 络 LSTM和门限递归单元GRU。
图片
传 统 的图 像 特征 表 达 主 要 以人 工 构 造 ( h an d -cra fted ) 的 视 觉特 征 为 主 , 在 早 期 的 跨模 态 检 索 中 普 遍 采 用 人 工 构 造 的 视 觉特 征 。应 用 比 较 广 泛 的 传统特 征 主 要 有 颜 色 特 征 , 纹 理 特 征 、 形 状 特 征 等 。
- 对 于 颜 色特征 的 表 达 , 首 先 会 选 择 一 个 颜 色 空 间 ( 比 如 RGB 空 间 、 HS V 空 间 ), 然 后 对 颜 色 进 行 量化 从 而 得 到 特 定 的 颜 色 特 征常 见 的 颜 色 特征 有 颜 色 直 方 图 , 颜 色 熵 等 。
- 纹 理 是 一 种 不依 赖 于 颜 色和 亮度 的 反 映 图 像 同 质 现 象 的 视 觉 特 征 , 常 见 的 纹 理 特 征 有 局 部 二 进 制 模 式 特 征 ( L BP ) ,Ta m u ra 纹 理 特 征 等 。
- 相 比 于 颜 色和 纹 理 低 层 特 征 而 言 , 形 状 特 征 属 于 描 述 图 像 中 物 体 和 区 域 的 重 要 的中 层 特 征 , 主 要 的特征 有 基 于 状 态矩 阵 的特 征 , 基 于 方向 链码的 特 征 等 。 此 外 , 基 于 S IFT,H OG 等 局 部 描 述算 子 特 征 受 到广泛 的 追 捧 。这 类 特征 先 从 图 像 中提 取 描 述 算 子 , 然 后 通 过 视 觉 词 袋 或 者 Fi s h er Vec to r 编 码 将 提 取 的 描 述特 征 编 码 成固 定 长 度 的 向 量 特 征。
Alexnet 摸 型有 三 点 比 较 重 要 的 不 同 :
1 ) 用 ReLU 非 线 性 激 活 函 数 代 替 LetNet - 5 中的 Sigmod 函 数 , 从 而 解 决 网 络 在较 深 情 况 下 的梯 度 弥散 问题 ;
2 ) 训练 时 使 用 Dropout 随机 忽 略 部 分 神 经 元 从 而 缓 解 模 型出 现 过 拟 合 的 现 象 ;
3 ) 用 最 大 池 化 代替 平 均 池 化 , 从 而 避 免 因 使 用平 均 池 化 带 来 的 模 糊 影 响 。
V GGNet 使 用 了 较 小 的 3 X 3 卷 积 核 , 并把 这些小的 卷 积 核 排 列 起 来 作 为 一 个 卷 积 序 列 使 用 , 同 时 使模 型 的 网 络 结构变 得 更 深 ; 使 用 小的卷 积 核 可 以 大大减 少 网 络的 参 数 ,有 助 于 模 型 的 训 练 节 省 运 算开 销 ;
Goo gleN et 将模 型 的 深 度 增 加 到 了 当 时 最 深 的 22 层 , 为 了 缓 解 网 络 过 深 出 现 梯 度消 失 问 题 , 其 巧 妙 地 在 不 同 深 度 处使 用 两 个 l o ss 来 保 证 梯 度 ; 此 外 , G oo gl eNet 提出 I nce pti o n 来提 升 网 络 的 宽 度 , 其 并 行 的 使 用 1 X 1 , 3 X 3 和 5 X 5 卷 积 核 和 m ax poo li ng 来 获 得 不 同 尺 度 的 特 征 , 同 时 结 合 1 X 1 卷 积 核 使 用 来 节省 模 型 的 参 数 节省 计 算 成 本 。
R es Ne t 是 201 5 年 ILSVRC 的 冠 军 , 其 通 过 引 入 残 差 网 络 结 构 ( res i du al ne tw ork ) 将 网 络 结 构 的 深 度 拓 展 到 惊 人 的 上 百 层 。 残 差 网 络 结 构 通 过 在 输 出 和 输 入 之 间 引 入 一 个 s hortcut 链 接 , 而 不 是 简 单 的 网 络 堆 叠 , 这 样 可 以 解 决 网 络 过 深 出 现 梯 度 消 失 问 题 , 从 而可 以 将 网络 设 计 的 更 深.
视频
视 频 的 特 征 表 这 研 究 主 要 分 为 两 大 块 , 一 是 语 音特 征 , 二 是视 觉 特 征 。语 音 的 特 征 主 要 表 现 在 声 强 , 响度 , 音高等 指 标 上 。视 觉 特 征 是 指 从视 频帧 序 列 中 提 取 的特 征 , 由 于 视 频帧本 质 上 就 是 一 张 图 像 , 因 此 可用 于 图像特 征 表 达 的 方 法 都 可用 于 视 频 帧 的 表 达 。
文 献 61从视 频 中 获 取 运 动 物 体 的 轨 迹 和 光流 来 进 行特 征 表 达。在 深 度 学 习 应 用于 行 为 识 别 领 域 前 , 该 方 式 为 行 为 识 别 领 域 很 好 的 特征 表 这 方 法 。 近 年 来 , 在 视 频 领 域 同 样 出 现 利 用深 度 学 习 的 方 法 来 对 视 频 进 行 表 达 。
跨模态相关度计算
1)基于公共空间学习的方法
根据跨模态 相 关 度 的 计 算机 制 , 可 将 主 流 的跨模 态险 索 方 法 可 分为 两 大 类 : 基 于 公共 空 间学 习 的方 法 和 基于 相 关性 度 量 的方 法 。
对 于 不 同 方 法 , 其 主 要 区 别 在 于 将多 媒 体 数 据映射 到 公 共 空 间 的 方 式以 及 优 化 的 目 标 函 数 。
早 期 基 于 公 共 空 间 学 习 的 方 法 通 常 采 用 仿射变 换 将 多 媒 体 数 据进 行 线 性 变 化 , 典 型 方 法 比 如典 型** 相 关 度分 析(CCA)和多项 式 语 义 检 索(PSI)。CC A 是 一 个 经 典 的 基 于 公共 空 间 学 习 的 方 法 , 其 通 过 学 习两 个线 性 映 射 并 以最 大 化 两个 不 同 模 态在 公 共 空 间 中 的 相 关 度 为学 习 目 标 。
PSI 和 C CA — 样 依 赖 于 两 个 线 性 映 射 将 不 同 模 态的 数 据 映 射 到 公 共 的 潜 在 子 空 间中 , 其 不 同 在 于 PSI 采 用 排 序损 失 函 数 来训 练模 型 。 给 定 一 个 文 本 查 询 , P S I 希 望 与 给 定查询相 关 的图 像 与 查询在 公 共 空 间 的相 关 度大 于 不 相关 的图 像 与 查 询在 公 共 空 间 的 相 关 度 。
深度学习 中:在 基 于 图 像 和 文 本 的 跨模 态 检 索 中 , Yu 等 人 在 文 献 [ 7 1 1 中 使 用 深 度 卷 积 神 经 网 络 将 图 像映 射 到 公 共 子 空 间 , 而 对文 本 的 映 射 仍然使 用仿 射 变 换 。 不 同于 文 献 [ 7 1 ] , He 等 人 利 用 两 个 深 度 卷 积 神 经 网 络 分 别 把 图 像 和 文 本 映 射到 公 共 子 空 间 , 而 Kiro s 等 人 [ 1 8] 分 别 用 CNN 络 和 LST M 将图 像 和 文本 映 射 到 公共 子 空 间 。
m-DAN 模 型 引 入 记 忆 力 机 制 和 注 意力 机 制 迭 代 地挖 掘 数据 中 重要 的 语 义 信息 从 而 构 建 多 个 不 同 的 公 共 子 空 间 。早 期 的 跨模 态 模 型 [ 18 ; 72 ; 74] 关 注 图 像 和 文 本 的 全 局 粗 颗 粒特 征 , 通 过 构 建 两 者 的 全局 相 关 度 来 实 现跨模态 检 索 , 但 缺 乏 对 图 像 和 文 本 数 据 更 精 细 的 理 解 。
此 外 , 我 们 发 现 大 部 分 的 跨 模态 检 索 模 型 采 用 经 典 的 最 小 化 排 序 损 失 函 数 为优化 目 标 对 模 型 进 行训练 。
此 外 , 经 典 的 排 序损失 函 数对 于 一 个 正 样本 会 考 虑 其对 应 的 多个 负 样本 , 而 这 些 负 样 本 中 大 部 分 是 一 些 筒 单 的样本 , 这 会 导 致 更 新模 型 的 梯度受 众 多 简单 样本 的 支 配 而 降低 较 少 且 较难样 本 的影响 。
近 年 来 , 一 种 基 于 博 弈 论中 二 人 零 和 博 弈 思 想 的 生 成 对 抗 网 络 ( G A N ) 在计 算 机 视 觉 和 自 然 语言 处 理 任 务 上 有较好 的 表 现 。
AC M R 模 型 包 含 两 个 子 模 型 , 其 中 一 个 子 模 型 是 将 文 本 和图 像 数 据 映射 到一 个 公 共 的 潜在 子 空 间 中 并 基 于 排 序 损 失 函 数 进 行 优 化, 而 另 一 个 子 模 型 为 分 类模 型用 来 鉴 别 数 据 在 公 共 的 潜 在 子 空 间 中 的 模 态 类 型 。 两 个 子 模 型相 互 对 抗 并 迭代 对 模 型 进 行 优 化 。
2)基于相关性度量的方法
基 于 相关性 度 量 的 方 法 并 不 学 习 公 共 空 间 , 而 是 通 过 挖 掘 学 习不 同 模 态 数 据 之 间 的 关系 从 而 直 接 预 测 给 定的 不 同 模态 数 据 对 的 相 关 度 。
早 期 的 主 流 方 法 通 过 近 邻 分 析 来 计 算 不 同 模 态 数 据 之 间 的相 关 度。Pan 等 人 利 用从 商 用 图 像 搜 索 引 擎 收 集的 点 击 日 志 数 据来 进 行 近 邻 分 析 从 而 实 现 文 本搜 图 像 的 跨模 态 检 索 。
近 几 年 , 基 于 相关 性 度 量的 方 法 中 同 样 出 现 了 越 来 越 多利 用 深 度学 习 技 术 的 解 决 方 案 , 其 主 要 思 想是 训 练 一 个 端 到 端 的 网 络 直 接 预 测 不 同 模 态 数 据 之 间 的 跨模 态 相 关度。
模 型 以 文 本 和 图 像作 为输 入 来 预 测 两 者 的 跨 模 态 相 关 度 。 整 个 楔 型 首 先 通过 两 个 分 支 网 络 分 别将 文 本 和 图 像 映射 中 两 个 相 同 维 度 的 特 征 空 间 , 然 后 通 过 Element-wise product 进 行 融 合 , 最后 通 过 一 个 多 层 感 知机 (MLP) 来 预 测 输 入 文 本 和 图 像 的相 关 概 率 , 并将 这个概 率作为文 本 和 图 像 的 跨 模 态 相 关 度 。 基 于 排 序 的 损失 函 数 相 比 于 基 于 分类 的 损失 函 数在跨模 态 检 索 任 务 中 表 现 中 更 好 的 性 能 .而 近 年 来 基 于 深 度 学 习 的 端 到 端 模 型 必 需 输 入 成 对 的 跨 模 态 数 据 才 能 计 算 相 关 度 , 因 而 无 法 对数 据 进 行 预 先 的 量 化 表 达 , 从 而 影 响 模 型 的 效 率 。