论文研读|多媒体自动评论生成发展综述

news2024/11/18 7:24:14

前言:多媒体自动评论生成旨在通过使用生成模型,对给定上下文生成符合情境的评论,近年来,随着图像描述等跨模态工作取得较大突破,相关研究也逐渐展开。评论作为社交平台互动的重要组成部分,在引导舆论、提升用户体验等方面发挥重大作用。现有的多媒体自动评论生成研究工作相对有限,下面对其进行介绍。

目录

  • 检索式图像自动评论(Search-based Automatic Image Commenting)
  • 生成式图像自动评论(Generative Automatic Image Commenting)
  • 视频弹幕自动生成(Automatic Live Video Commenting)
  • 未来研究方向


检索式图像自动评论(Search-based Automatic Image Commenting)

[1]- Predicting Viewer Affective Comments Based on Image Content in Social Media (ICMR, 2014) National Taiwan University, Chen et al.
[2]- Assistive Image Comment Robot—A Novel Mid-Level Concept-Based Representation (TAC, 2015) FX Palo Alto Laboratory, Chen et al.

如下图,Chen等[1,2]提出使用贝叶斯概率模型,在分析图像情感的前提下,通过预测阅读者的情感反应,在此基础上提出为图像生成评论的模型。给定一张测试图像及其元数据,首先评估该图像的发布者情感因素(PAC),然后从训练集中选取和该测试图像具有相似PAC的图像,选取其对应评论构建候选评论池。通过计算评论与测试图像的向量内积,选取得分较高的评论进行回复。
图1 情感相关模型及其应用

如下图所示,自动评论能够较好贴合图像内容,但 (c ), (d)中的自动评论明显与图像不符,如出现错误的目标和动作等。

图2 自动评论结果示例

[3]- Object-Based Visual Sentiment Concept Analysis and Application (MM, 2014) Columbia University, Chen et al.

为解决工作[1,2]中生成评论含有错误目标和动作的问题,工作[3]将目标检测加入模型,使用传统目标检测方法DPM检测出测试图像中的目标。
图3 基于目标检测的自动评论生成
基于目标检测的评论生成提升了评论的质量,如下图所示。

图4 自动生成评论效果对比

[4-1]- Share-and-Chat: Achieving Human-Level Video Commenting by Search and Multi-View Embedding (MM, 2016) Sun Yat-sen University, Li et al.
[4-2]- Video ChatBot: Triggering Live Social Interactions by Automatic Video Commenting∗ (MM, 2016) Sun Yat-sen University, Li et al.

Li等[4-1,4-2]将评论生成任务迁移至视频领域。首先使用CNN获取视频特征表示,通过ANN搜索出相似视频,然后对相关评论进行动态排序,选取出合适评论,如下图所示。
图5 Share and Chat 方法流程图

[5]- See and chat: automatically generating viewer-level comments on images (Multimedia Tools and Applications, 2019) Sun Yat-sen University, Chen et al.

Chen等[5]首先使用CNN获取图像表征信息,然后使用KNN,根据这些特征信息筛选出与测试图像相似的图像,然后使用Ranking典型相关分析(RCCA)对候选评论进行排序,如下图所示。使用 Flickr API构建数据集,并从图文相关性、评论感情强度和评论长度等方面对数据进行后处理。 数据集划分比例为:400K, 25K, 1K张图像。
图6 See and Chat 方法流程图


生成式图像自动评论(Generative Automatic Image Commenting)

[6]- Auto Image Comment via Deep Attention (ICIVC, 2017) Jiangxi Normal University , Shi et al.

Shi等在[6]中首次提出生成式图像评论模型,如下图,该模型使用Encoder-Decoder框架,CNN+LSTM组合模型,结合注意力机制,生成适合的评论短语。
图7 生成式图像评论生成

[7]- Neural Visual Social Comment on Image-Text Content (IETE Technical Review, 2020) Shanghai University, Yin et al.

Yin等[7]将输入的图像及其文字结合,融合多模态信息生成评论,采用新浪微博爬取的帖子作为数据集,每条样本包括帖子的文本和零至多张图片,以及对应的评论信息。使用主题分类模型用于生成评论与真实评论,构建感知损失,将其与MLE损失进行比较。该工作的创新之处在于,使用主题分类模型,使得生成的评论主题与原始评论相同但又不失多样性。
图8 基于主题分类模型的生成式评论
[8]- Explainable Outfit Recommendation with Joint Outfit Matching and Comment Generation (TKDE, 2020) Shandong University, Lin et al.

Lin等[8]通过使用CNN提取图像特征,然后采用GRU和跨模态注意力机制为服装生成自然的评论,如下图所示。

图9 服装评论生成(a)图像特征提取(b)互注意力机制(c)解码器生成评论

[9]- An Image Comment Method Based on Emotion Capture Module (ICFTIC, 2021) Beihang University, Li et al.

Li等[9]首先使用 GAN 生成图像描述,然后使用文本风格迁移与文本改写间接生成评论。首先借鉴现有图像描述数据集,使用文本编辑方法打造图像评论数据集 。然后将目标域设置成评论数据库,学习评论的语言风格,通过对描述进行改写生成评论,如下图所示。
图10 基于文本改写的图像评论生成


视频弹幕自动生成(Automatic Live Video Commenting)

随着短视频社交软件的普及,一些研究者陆续开展视频弹幕生成相关研究工作。下面对几个代表性工作进行介绍。

[10]- LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts (AAAI, 2019) Beijing University, Ma et al.

本文出自北大孙栩老师课题组,是第一篇提出视频弹幕生成这一任务的文章。Ma等提出两个处理此任务的baseline模型,分别是:层级结构的Fusional RNN 和线性结构的 Unified Transformer,如下图所示。

开源代码:https://github.com/lancopku/livebot

图11 两种 baseline 模型

[11]- VideoIC: A Video Interactive Comments Dataset and Multimodal Multitask Learning for Comments Generation (MM, 2020) Renmin University of China, Wang et al.

本文出自中国人民大学进琴老师团队,采用多任务学习方法,使用 Transformer 和 LSTM 分别提取图像的局部和全局特征;使用 Bi-LSTM 提取文本特征;送入基于 Transformer 的编码器中进行多模态特征整合,然后分别计算生成损失与上下文判别损失,整体框架图如下。

开源代码:https://github.com/AIM3-RUC/VideoIC

在这里插入图片描述

[12]- PLVCG: A Pretraining Based Model for Live Video Comment Generation (PAKDD, 2021) Chinese Academiy of Sciences, Zeng et al.
[13]- Knowing Where and What to Write in Automated Live Video Comments: A Unified Multi-Task Approach (ICMI, 2021) University College Dublin, Wu et al.
[14]- Sending or not? A multimodal framework for Danmaku comment prediction (IPM, 2021) Chinese Academiy of Sciences, Xi et al.


未来研究方向

综上所述,多媒体自动生成式评论仍有很大的研究空间。个人感觉,以下几个研究方向有待探索。(1)为确保评论对象符合图像内容,考虑加入目标检测模块,实现针对图像局部的细粒度评论。(2)添加情感模块,确保生成的评论与原始评论情感步调一致。

参考文献

  • [1] Y.Y. Chen, et al.Predicting Viewer Affective Comments Based on Image Content in Social Media, ICMR, 2014.
  • [2] Y.Y.Chen, et al. Assistive Image Comment Robot—A Novel Mid-Level Concept-Based Representation, IEEE TRANSACTIONS ON AFFECTIVE COMPUTING (CCF-B), 2015.
  • [3] T. Chen, et al. Object-Based Visual Sentiment Concept Analysis and Application, ACM Multimedia, 2014.
  • [4] Li et al. Share-and-Chat: Achieving Human-Level Video Commenting by Search and Multi-View Embedding. ACMMM, 2016.
  • [5] J.W. Chen, et al. See and chat: automatically generating viewer-level comments on images. Multimedia Tools and Applications, 2019.
  • [6] J.H. Shi, et al. Auto Image Comment via Deep Attention. IEEE 4th International Conference on Image, Vision and Computing (ICIVC), 2017.
  • [7] Y. Yin, et al. Neural Visual Social Comment on Image-Text Content, IETE Technical Review, 2020.
  • [8] Y.J. Lin, et al. Explainable Outfit Recommendation with Joint Outfit Matching and Comment Generation. TKDE, 2020.
  • [9] Q. Li, J. Yin and Y. Wang, An Image Comment Method Based on Emotion Capture Module, 2021 IEEE 3rd International Conference on Frontiers Technology of Information and Computer (ICFTIC), 2021, pp. 334-339.
  • [10] Ma et al. LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts, AAAI, 2019.
  • [11] Wang et al. VideoIC: A Video Interactive Comments Dataset and Multimodal Multitask Learning for Comments Generation, MM, 2020.
  • [12] Zeng et al. PLVCG: A Pretraining Based Model for Live Video Comment Generation, PAKDD, 2021.
  • [13] Wu et al. Knowing Where and What to Write in Automated Live Video Comments: A Unified Multi-Task Approach, ICMI, 2021.
  • [14] Xi et al. Sending or not? A multimodal framework for Danmaku comment prediction, IPM, 2021.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/837678.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Keil MDK环境下FreeModebus移植踩坑记录

Keil MDK环境下FreeModebus移植踩坑记录 文章目录 Keil MDK环境下FreeModebus移植踩坑记录armcc (arm compiler v5)环境实验一:实验二: armclang (arm compiler v6)环境实验一:实验二:实验三:实验四 总结 armcc (arm c…

TCP Socket 基础知识点(实例是以Java进行演示)

本篇根据TCP & Socket 相关知识点和学习所得进行整理所得。 文章目录 前言1. TCP相关知识点1.1 双工/单工1.2 TCP协议的主要特点1.3 TCP的可靠性原理1.4 报文段1.4.1 端口1.4.2 seq序号1.4.3 ack确认号1.4.4 数据偏移1.4.5 保留1.4.6 控制位1.4.7 窗口1.4.8 校验和1.4.9 紧…

Qt事件的传递顺序

事件的传递顺序 事件的传递顺序是这样的:先是事件过滤器,然后是该部件的event()函数,最后是该部件的事件处理函数。这里还要注意,event()函数和事件处理函数,是在该部件内进行重新定义的,而事件过滤器却是…

Kali部署dvwa和pikachu靶场

kali换源 进入 vim /etc/apt/sources.list deb https://mirrors.aliyun.com/kali kali-rolling main non-free contrib deb-src https://mirrors.aliyun.com/kali kali-rolling main non-free contrib替换完后更新源 apt-get upadteDVWA靶场环境搭建 使用git从github上把DV…

C#中XML文档与Treeview控件操作的数据同步

在前文《C#使用XML和Treeview结合实现复杂数据采集功能》中,使用Treeview展示了XML的数据,问题是如果在Treeview上进行了操作,怎样同步更改XML数据的内容呢? 这个问题看似简单,实现起来有一点小麻烦。 要实现的操作功能…

【2023年电赛国一必备】B题报告模板--可直接使用

任务 图1 任务内容 要求 图2 基本要求内容 图3 发挥部分内容 说明 图4 说明内容 评分标准 图5 评分内容 正文 (部分) 摘要 本实验的目标是设计并制作一个同轴电缆长度与终端负载检测装置,通过使用STM32主控和模拟电路进行实现。装置需…

基于EMQ的企信说明文档(包含EMQ安装步骤、JAVA后端、VUE前端)

基于EMQ的企信说明文档(包含EMQ安装步骤、JAVA服务端、VUE客户端) 整体数据流图: VUE简单demo: 什么是EMQ EMQ X R3.1 (Erlang/Enterprise/Elastic MQTT Broker) 是基于 Erlang/OTP 语言平台开发,支持大规模连接和分布式集群,简单来说&#…

angular material 表格分页 mat-paginator,设置分页大小标签内容

当我们不想要material 样式自带的文字时: 可以这样操作: import { MatPaginatorIntl } from angular/material/paginator;constructor(private paginator: MatPaginatorIntl) {paginator.itemsPerPageLabel 这里输入分页需要的提示文字; }

PHP国外在线教育系统源码 在线课程系统源码 直播课程系统源码提供在线课程,现场课程,测验

Proacademy是在线教育一体化的解决方案,用于创建类似于Udemy、Skillshare、Coursera这种在线教育市场。 这个平台提供在线课程,现场课程,测验等等,并有一个基于实际业务需要的高级认证插件,程序基于Laravel强大的安全框…

第R2周 - LSTM火灾温度预测

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 我的环境: 语言环境:Python3.10.7编译器:VScode深度学习环境:TensorFlow 2.13.0 一、前期工作: …

电脑第一次使用屏幕键盘

操作流程 1.在键盘上同时按WinR打开运行; 2.输入control 3.找到设置中心 4.点击屏幕键盘 效果 具体怎么使用 我不咋清除 简单 测试了一下 可以用鼠标点击屏幕键盘的按键 用键盘 按字母键和数字键 是和屏幕键盘不同步的 其他 tab、shift、后退、enter好像同步

Dubbo+Zookeeper使用

说明:Apache Dubbo 是一款 RPC 服务开发框架,用于解决微服务架构下的服务治理与通信问题,官方提供了 Java、Golang 等多语言 SDK 实现。 本文介绍Dubbo的简单使用及一些Dubbo功能特性,注册中心使用的是ZooKeeper,可在…

案例实践:小红书APP出现闪退问题,接口测试怎么做?(二)

Postman实现接口功能测试 新增货品接口实战 1、填写接口请求4要素: 由于货品新增接口文档找不到接口请求4要素中的:请求方法、请求地址和请求头,故,使用Fiddler抓包获取,获取结果如下: 1)请求…

选择适合的项目管理工具,高效完成项目管理

很多项目经理想要知道项目计划执行的情况,大部分都是通过在线EXCEL文档,大家去更新进度,或者通过各种群消息,邮件,电话去通知项目经理项目执行进度,好一点的企业可能有专业的项目管理软件去收集进度&#x…

WebAPI文档与自动化测试

目录 1、控制器,项目属性里需要勾选输出Xml文档选项: 2、下载文档的网页数据 3、运行访问网址 4、接口测试: 5、批量测试: 6、微服务文档 总结: 本篇介绍框架的WebAPI文档与自动化测试 1、控制器,项…

Elasticsearchr入门

首先在官网下载elasticsearch8.9版本&#xff0c;以及8.9版本的kibana。 解压&#xff0c;点击es8.9bin目录下的elasticsearch.bat文件启动es 如图所示即为成功。 启动之后打开idea&#xff0c;添加依赖 <dependency><groupId>com.fasterxml.jackson.core</g…

【二开版】大魔王7.0-PHP来客云在线客服系统

前言 由于即时通讯软件不是存在敏感词汇就是收费&#xff0c;想找一个网上开源的又麻烦&#xff0c;来客云在线客服系统网上到处都能找到&#xff0c;但是由于开发时间太久&#xff0c;像公众号的一些消息服务受限不能用了&#xff0c;这一套客服系统只能做到基本的聊天对话功…

华为OD机试真题 Java 实现【最长的完全交替连续方波信号】【2023 B卷 200分】,附详细解题思路

目录 专栏导读一、题目描述二、输入描述三、输出描述四、解题思路五、Java算法源码六、效果展示1、输入2、输出 华为OD机试 2023B卷题库疯狂收录中&#xff0c;刷题点这里 专栏导读 本专栏收录于《华为OD机试&#xff08;JAVA&#xff09;真题&#xff08;A卷B卷&#xff09;》…

TP DP PP 并行训练方法介绍

这里写目录标题 张量并行TP流水线并行 PPnaive模型并行GPipePipeDream 数据并行DPFSDP 张量并行TP 挖坑 流水线并行 PP 经典的流水线并行范式有Google推出的Gpipe&#xff0c;和微软推出的PipeDream。两者的推出时间都在2019年左右&#xff0c;大体设计框架一致。主要差别为…

Java阶段五Day19

Java阶段五Day19 问题解析 需求单查询列表功能的bug 业务逻辑&#xff1a; 需要用户登录&#xff0c;师傅入驻&#xff0c;审核入驻通过 查询师傅详情&#xff08;areaIds&#xff0c;categoryIds&#xff09; demand-server-dao-impl 包含持久层实现 requestOrderMappe…