百度“文心•跨模态大模型”又有新动态,支持内容分析时输出自定义标签库

news2024/9/22 19:35:54

大模型真正的价值在于应用。

一、基本概念

AI大模型具有强大的表征学习能力,能够在海量数据中提取有用的特征,为各种复杂任务提供解决方案。例如GPT-4o、BERT等模型的出现,不仅展示了大规模参数和复杂计算结构的优势,还在自然语言处理、图像识别等领域取得了令人瞩目的成果。同时,多模态大模型发展也为人工智能技术的多领域融合应用提供了可能。

1.跨模态大模型

跨模态大模型(Cross-Modal Large Models),是一种能够处理和理解来自不同模态(如文本、图像、音频、视频等)的数据,并在这些模态之间进行转换、关联和推理的深度学习模型。为了捕捉和表示各种模态数据中的丰富信息,这些模型通常具有庞大的参数规模和复杂的网络结构。

随着深度学习技术的不断发展和计算能力的提升,跨模态大模型的性能和效果越来越好,已经被广泛地投入使用。跨模态大模型可以实现图像描述生成、视觉问答、图像检索等任务,有效地关联和融合信息,为用户提供更加灵活便捷的检索方式。除此之外,跨模态大模型经常用于分析多媒体内容,如视频、音频等,提取其中的关键信息和特征。

2.内容分析

本文介绍的是“媒体内容分析”。它主要利用视觉、语音、知识图谱等AI技术,对视频和图片进行结构化分析,帮助平台实现个性化内容推荐,提升用户检索体验,促使业务有效转化。

百度的媒体内容分析MCA(Media Content Analysis) 借助百度积累的海量级数据,针对视频场景进行声音、人脸、图像、文字多维度分析,输出内容的泛标签,可以达到最优的识别效果。

3.结构化标签

结构化标签是一种用于明确标识和分类内容的标记形式。它不仅能帮助人类更好地理解内容,还可以让机器(如搜索引擎、自动化工具等)解析和索引信息,更准确地理解文本含义和上下文信息,提高任务处理效率,从而提高内容的可访问性,改善观众的搜索体验。

结构化标签通常遵循某种标准或规范,如HTML5的语义化标签(如<header>, <footer>, <article>, <section>等)、微数据(Microdata)、RDFa(Resource Description Framework in Attributes)或JSON-LD(JavaScript Object Notation for Linked Data)等。

4.自定义文心标签

当系统中已有的标签无法满足实际需求时,只需在文心标签库里输入“标签名称+提示词”的文本,系统就能为视频、图片打上对应的标签。这个能力的实现,使用了百度“文心•跨模态大模型”,因此通过这种方式打出的标签,被称为“文心标签”。

百度的内容分析系统,支持“系统内置文心标签”和“自定义文心标签”。前者由内容分析产品官方团队维护,用户可在模板中配置是否开启;后者由用户自主维护,需要用户手动创建标签库,并将其绑定在模板上。

二、超详细实操指南

登录百度智能云官网、进入产品页面后,点击分析管理>自定义库管理>自定义文心标签库,进入自定义文心标签库页。

Step 1 确定标签内容

根据自身的业务需求,梳理好期望系统输出的标签。我们推荐在以下场景内,使用自定义文心标签功能:

  • 自然场景标签:如“暴雪天”“森林”“冰川”“极光”“星空”等自然场景。

  • 人文场景标签:如“演出活动”“博物馆”“握手”“龙舟比赛”等社会文化生活中常见的场景、活动、动作。

  • 常见实体标签:如“滑板”“蛋糕”“飞机”“二维码”“长城”等物体、地标。

Step 2 创建文心标签库

进入自定义库管理>文心标签库页面,点击“创建文心标签库”按钮,创建库。每个用户最多可创建3个库,单个库最多支持300个标签。

Step 3 添加标签与提示词

创建完自定义文心标签库后,进入标签库编辑页。点击“添加标签”,即可添加标签与提示词。

3.1 什么是提示词

标签是用户期望系统为图片、视频内容打上的标签,提示词是系统打标签的参考依据。

例如,“冬季运动”为标签,“滑冰、滑雪、冰壶、雪车”为提示词。系统在进行内容分析的过程中,如果发现某个图片或视频的画面内容与提示词一致,就会为其打上对应的标签。

3.2 怎么写提示词

如果标签可以概括提示词内涵,可以直接使用标签作为“提示词”,如“极光”。为了保证召回的效果,也可以使用近义词撰写多个提示词,如“舞台”。

如果标签涵盖的场景较为复杂,提示词要细化不同的场景。如标签“救援”“婚纱照”。

3.3 标签验证

为每个标签添加提示词后,可使用“标签验证”功能,检验提示词是否合适,以确保系统根据提示词匹配的图片与提示词表达的内涵一致。如遇到不一致的情况,可对提示词进行调整。

如“红包”这个标签,本意是想召回在线的各类红包营销活动、红包提示,但进行“标签验证”后发现,系统召回了“红色的手提包”。为了避免系统对红包产生歧义、以至在后续使用过程中,给很多图片错误打上“红包”标签,可以将提示词改写为“电子红包画面”“电子红包”“电子红包弹窗”。

修改提示词前的标签验证结果,如下图:

修改提示词后的标签验证结果,如下图:

类似的例子还有标签“平板”,本意是指平板电脑,提示词只写“平板”,召回的内容不符合预期,改为“平板电脑”后,与预期一致。

修改提示词前的标签验证结果,如下图:

修改提示词后的标签验证结果,如下图:

3.4 标签阈值

系统支持输入0.26-0.35之间的两位小数作为标签阈值,默认阈值为“0.32”。只有“置信度”大于阈值的标签,才会被输出。阈值将直接影响图片打标签的严格程度。

  • 阈值较低(如0.26或0.27):意味着打标签规则相对宽松,图片更容易被打上当前标签。

  • 阈值较高(如0.34或0.35):意味着打标签规则更加严格,只有高度符合提示词描述的图片才会被打上当前标签,因此被打上标签的图片数量可能会减少。

当阈值设定好之后,在“标签验证”时,也只有“置信度”大于阈值的图片,才会被召回,且最多可以召回20张图片。

Step 4 将标签库绑定至模板

编辑好标签和提示词后,可以在视频分析模板、图片分析模板的“自定义文心标签”项下,绑定对应的标签库。

视频分析模板:

图片分析模板:

Step 5 开始使用

通过API接口或内容分析产品控制台,选择已经绑定好文心标签库的模板,发起“图片内容分析”“视频内容分析”,验证内容打标结果是否符合预期。如与预期不符,可增加或修改提示词。

图片内容分析:

视频内容分析:

三、总结

人工智能“百模大战”已经开启,借助大模型能力满足业务的自定义需求,已经成为大势所趋。文心跨模态大模型和自定义文心标签,突破了应用场景、产业生态、技术成本的限制,呈现出了蓬勃的生机与活力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1928341.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

django学习入门系列之第四点《案例 后台管理样例》

文章目录 往期回顾 前期准备&#xff1a; 导航新建&#xff0c;按钮表格 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title><!-- 开发版本 --><link rel"stylesheet…

【操作系统】文件管理——文件的物理结构(个人笔记)

学习日期&#xff1a;2024.7.15 内容摘要&#xff1a;文件的物理结构&#xff0c;逻辑结构与物理结构 目录 引言 文件分配方式 连续分配 链接分配 隐式链接 显式链接 索引分配 索引块大小不够装入整个索引表怎么办&#xff1f; ①链接方案 ②多层索引 ③混合索引 …

5、 测试

这里写目录标题 1、自动化测试简介&#xff08;1&#xff09;自动化测试是什么&#xff08;2&#xff09;为什么要写测试测试节约你的时间发现错误&#xff0c;预防错误测试使得代码更有吸引力 2、基础测试策略3、开始写第一个测试&#xff08;1&#xff09;首先得有个bug&…

目标检测之单类别NMS

long time no see! 在目标检测中&#xff0c;常见的是多类别NMS&#xff0c;也就是只对相同类别的boxes来计算IOU&#xff1b;但现实场景中经常遇到同一个物体被识别成2个类别&#xff0c;也就是模型认为它既是类别1也是类别2.这时候通过多类别nms就过滤不掉这种重叠的框。所以…

Android Studio - adb.exe已停止运作的解决方案

adb.exe 是Android Debug Bridge 的缩写&#xff0c;它是Android SDK 中的一个调试工具&#xff0c;允许开发者通过命令行界面与设备进行交互&#xff0c;执行各种操作&#xff0c;如运行设备的shell、管理模拟器或设备的端口映射、在计算机和设备之间上传/下载文件、将本地APK…

元服务体验-服务发现

服务发现&#xff0c;无论线上或线下的方式都可以发现元服务。 线上&#xff1a;基于用户意图。从精准意图的搜索、用户事件触发的推荐到主动探索等场景。用户可以在设备的负一屏、全局搜索、应用市场、桌面等场景发现元服务。 线下&#xff1a;用户在 HarmonyOS Connect标签…

Flask启动5000端口后关不掉了?

事情是这样的&#xff1a; 使用python app.py启动flask应用后&#xff0c;又启动了另一个flask测试应用&#xff0c;也能启动成功&#xff0c;也没有报设么端口冲突&#xff0c;关闭黑窗口后&#xff0c;访问还是有守护进程在运行&#xff0c; 为什么我知道5000还在运行&#…

转型Web3开发第二课:Dapp开发入门基础 | 01 | 安装MetaMask

前言 完成了《转型 Web3 开发第一课》之后&#xff0c;得到了不少读者的认可&#xff0c;很多都在问什么时候开始下一课&#xff0c;近期终于抽出了时间开始搞起这第二课。 这第二课的主题为「Dapp开发入门基础」&#xff0c;即想要转型做 Dapp 开发的人员&#xff0c;不管是…

01数据结构 - 顺序表

这里是只讲干货不讲废话的炽念&#xff0c;这个系列的文章是为了我自己以后复习数据结构而写&#xff0c;所以可能会用一种我自己能够听懂的方式来描述&#xff0c;不会像书本上那么枯燥和无聊&#xff0c;且全系列的代码均是可运行的代码&#xff0c;关键地方会给出注释^_^ 全…

CSS-0_3 CSS和单位

文章目录 CSS的值和单位属性值长度单位CSS和绝对单位CSS和相对单位百分比em & rem视口 颜色单位 碎碎念 CSS的值和单位 我们知道&#xff0c;CSS是由属性和属性值所组成的表 随着CSS的发展&#xff0c;属性不说几千也有几百&#xff0c;我从来不支持去背诵所有的可能性。…

AWS Aurora Postgres 的开源替代品:存储和计算分离 | 开源日报 No.278

neondatabase/neon Stars: 13.0k License: Apache-2.0 Neon 是一个无服务器的开源替代品&#xff0c;用于 AWS Aurora Postgres。它将存储和计算分离&#xff0c;通过在节点集群中重新分配数据来替换 PostgreSQL 存储层。 提供自动扩展、分支和无限存储。Neon 安装包括计算节…

图解PyTorch中的Transpose操作

在PyTorch中&#xff0c;我们时常会对张量进行转置操作。若张量是二维的&#xff0c;则非常容易理解。若张量维度更高&#xff0c;则会令人摸不到头脑。 高维张量究竟是怎么转置的&#xff1f;简单来说&#xff0c;就是将参与转置的维度抽出来&#xff0c;将内侧的子张量视为一…

设计模式学习(二)工厂模式——抽象工厂模式

设计模式学习&#xff08;二&#xff09;工厂模式——抽象工厂模式 背景抽象工厂模式优点与缺点参考文章 背景 现在我需要开发一个相机操作模块&#xff0c;它可能在Windows下运行&#xff0c;也可能在Linux下运行。由于在厂家提供的SDK中&#xff0c;Windows下的SDK和Linux下…

DROO论文笔记

推荐文章DROO源码及论文学习 读论文《Deep Reinforcement Learning for Online Computation Offloading in Wireless Powered Mobile-Edge Computing Networks》的笔记 论文地址&#xff1a;用于无线移动边缘计算网络在线计算卸载的深度强化学习 论文代码地址&#xff1a;DR…

统计学9——分类数据统计

知识结构 内容精读 1.分类数据与$\chi^2$统计量 分类数据在第一章已经进行了详细介绍&#xff0c;就是对数据进行分类的结果&#xff0c;特征是&#xff0c;调查结果虽然用数值表示&#xff0c;但不同数值描述了调查对象的不同特征。由此分类数据的结果是频数&#xff0c;而$…

git链接远程仓库

【 一 】ssh链接远程仓库 删除git仓库 【 1 】初步使用方法 1、之前把本地代码&#xff0c;以https形式&#xff0c;提交到了远程仓库 # - git remote add origin https://gitee.com/bai-zhitao/lufy.git- 输入用户名密码2、ssh认证&#xff0c;只需要配置一次&#xff…

uniapp踩坑之项目:uni-table垂直居中和水平居中

uni-table 中的水平居中uni-td align"center"&#xff0c;css里的属性vertical-align: middle //html 水平居中<uni-table ref"table" :loading"loading" border stripe emptyText"暂无更多数据"><uni-tr><uni-th :wid…

车载音视频MediaPlayer优化方案

媒体播放现状 从手机到车载&#xff0c;在很多地方还是有很大的不同。针对多媒体的场景Android车机目前大部分结构大致结构如下图&#xff1a; 从以上图看出的问题&#xff1a; 各个音视频APP单独实现播控界面&#xff0c;播放链路不一致&#xff0c;使用的底层播放器和音频焦…

JavaEE:Spring Web简单小项目实践二(用户登录实现)

学习目的&#xff1a; 1、理解前后端交互过程 2、学习接口传参&#xff0c;数据返回以及页面展示 1、准备工作 创建SpringBoot项目&#xff0c;引入Spring Web依赖&#xff0c;添加前端页面到项目中。 前端代码&#xff1a; login.html <!DOCTYPE html> <html lang&…

云备份服务端

文件使用工具和json序列化反序列化工具 //文件和json工具类的设计实现 #ifndef __UTIL__ #define __UTIL__ #include<iostream> #include<fstream> #include<string> #include <vector> #include<sys/stat.h> #include"bundle.h" #inc…