AI大模型相关产品的数据飞轮如何建设?

news2025/1/13 3:30:39

1、背景

数据飞轮,是今年大模型带火的一个典型词汇,通过客户在应用程序中输入的提示词这样的数据反馈,使大模型快速迭代。简单说:好的产品 -> 更多的用户数据 -> 更好的模型质量 -> 更好的产品就进入了一个正向循环。一旦我们搭建起了这样的数据飞轮,就能在竞争中和对手拉开距离。

图片来自网络

2、案例&观点

2.1 Midjourney的数据飞轮产品设计

Midjourney是一款AI绘画工具,在Midjourney里面,简单到只要打几个字,就可以出来质量非常高的照片。

Midjourney产品设计:以用户社区作为入门教程、给用户即时反馈以及搭建数据飞轮以迭代模型,值得当前的AI应用构建借鉴和参考。

很多人都觉得Midjourney要比开源的Stable Diffusion好上不少,这背后有一个很重要的因素,就是它拥有更多高质量的标注数据。你可能要问了,Midjourney 只有不到 20 个人的团队,哪里来的资源去标注数据呢?答案就在 Midjourney 的产品设计流程里

当前的AI内容生成类型的产品,普遍存在的一个问题?用户其实不知道该怎么玩这个产品?这个“不知道怎么玩儿”,不是说不知道怎么生成一张图片,而是说不知道什么样的提示语值得一试,可以画出什么样的场景。因为大部分人和你我一样,不太懂得绘画,也缺少一些想象力。这样,很容易随便画了两三张图片之后,就放弃使用 Midjourney 这样的产品了。

下面是Midjourney的几点值得参考的几点设计:

设计1:默认进入某一个新用户聊天群,可以看到其他用户不用的使用场景。这样就可以简单的复制粘贴提示语,然后修改几个单词,就可以复刻其他人相同风格的画作了。(老玩家也有对应的方式)

设计2:提供优秀的实践案例,通过“共享”用户创建的内容这样的方式,Midjourney 很容易地让整个社区成为了教会新用户使用产品的通道。而不需要自己费劲费力地去写教程,或者提供大量的新手引导功能。ChatGPT缺少这样的能力,于是就有了 ShareGPT、FlowGPT 这样分享 ChatGPT 对话内容以及特定、有趣的提示语网站了。

设计3:面对响应速度慢问题(硬件和计算瓶颈)尽可能让用户能在等待过程中可以看到这个任务是有进展的,也就是说图片不是一下子从0到100展现出来,而是逐步展现,如下两张图表示从进度从31%->62%的加载过程,减少用户的等待焦虑。和ChatGPT流式输出的效果是类似的,图片或视频的处理可能会更复杂。

设计4:Midjourney针对用户的输入,并不是每次只生成一张图片,而是生成了四张不同的图片因为Diffusion算法生成的图片可控性性比较差,一次性拿到用户满意的图片概率比较低。一次性提供四张图片,让用户可以从四张里面挑一张,显然成功率就高多了。

搭建数据飞轮,快速迭代模型

Midjourney拥有更多高质量的标注数据,而这些数据绝大部分来自用户的标注或反馈数据。比如每个生成的图片下面有个Favourite按钮(代表喜欢和收藏),用户点击这个按钮的时候。Midjourney的团队就获得了一个由用户标注好的优质图片数据,也就是用户输入的提示词和对应的配对组合。

想象是美好的,实际用户主动点击Favourite按钮的会比较少,毕竟不是朋友圈类型的社交产品。Midjourney其实还有一些“隐形”的操作,也帮助用户标注了图片质量的好坏。

Midjourney 对于任何一个提示语,都会生成四张图片。除了直接从四张图片里面选一张放大之外,你还可以有另外两个选择。第一个是你可能对四张图片都不满意,那么你可以直接点击图片下面的“刷新”按钮,重新生成四张图片。或者,你对其中一张图片的整体观感还是不错的,但是还不够满意。你同样可以点击四格图下方的 V1-V4 按钮中的一个,以四格图里面的一张为基础,再生成 4 张相似的图片。而对于已经放大了的高清大图,用户同样可以点击 Make Variation 的按钮,来重新生成 4 张图片,再让用户选择。这两个动作里,用户尽管没有标记说哪一张图片是好的。但是其实已经告诉了我们,哪些图片他并不喜欢,以及 4 张图片里哪一张更接近他心目中理想的图片。

Midjourney 就可以根据用户前后的一系列操作日志,来筛选出那些用户最终选择的图片。如果用户做了大量刷新重新生成或者生成变体的操作,并且最后选定了一张图片放大,那么这张图片大概率是一张用户满意的高清大图,我们不需要依赖用户点击 Favorite 按钮这一动作。

这样的“隐式”反馈,在搜索、推荐等应用场景下很常见,比如在搜索场景,用户输入了搜索词却没有点击任何链接又重新输入了新的搜索词,那么大概率表示用户对搜索结果不满意。在短视频的推荐里面,尽管用户没有点赞或收藏,但是用户看完了整个视频,大概率表示用户对视频是感兴趣的。

对于大模型AIGC应用,这样“隐式”反馈信息的使用也非常重要。用户反馈越多,数据的质量就越高,高质量的数据,能让我们训练出更好的模型,而更好的模型,就意味着产品能够生成更高质量的内容,吸引更多的用户。这样,好的产品 -> 更多的用户数据 -> 更好的模型质量 -> 更好的产品就进入了一个正向循环。一旦我们搭建起了这样的数据飞轮,就能在竞争中和对手拉开距离。

用户社区、及时反馈以及建立数据飞轮是 AIGC 类应用必不可少的组成部分。

2.2 火山引擎:大模型时代,「数据飞轮」怎么做

数据飞轮,是今年大模型带火的一个典型词汇,通过客户在应用程序中输入的提示词这样的数据反馈,使大模型快速迭代。今年初,数据飞轮也曾一度被视为 OpenAI 最重要的先发优势。

问题1:「用户都看重数据资产,不愿意把数据拿出来,模型厂商帮助客户训好模型,做本地部署,做完了『净身出户』,数据飞轮很难建立起来」

火山引擎总裁谭待观点:

  • 大模型的数据飞轮问题首先要合规,其次,很多企业愿意与模型厂商共创,从而可以让大模型厂商的大模型。

  • 真正有比较好的 AI 原生应用出来,可能要等到底座模型本身至少具备GPT3.5+以上水平。

问题2:怎么理解「以消费为核心」的数据驱动?(以终为始)

火山引擎总裁谭待观点回到最大的根本,做这件事情,还是希望把目标定清楚,最后其实是以数据消费为目标来做这个事情。跟过去五六年业界讲的数据中台的概念相比,这是一个更大的升级,而且是更有效解决企业数据产生价值的问题。

否则,很多企业投入大量的资源,建完之后有数据,但是没有利用起来,本质就是没有想清楚最终应该围绕什么来做这件事情。以前我们做建设的时候,目标是有偏差的,比如我建一个中台其实不是目标,是实现数据驱动的一个手段

所以我们提出了数据消费、数据飞轮这样的逻辑。企业建设数据时,应该把数据消费作为目标,比如峰会讲的两个 80%:一是 80% 的企业员工能够用到,二是能覆盖到 80% 的分析场景。

2.3 数据飞轮汽车行业最新分享:营销场景下的7个维度问题解决

数据飞轮是基于字节跳动十余年数据驱动实践经验提炼的企业数智化升级新范式,数据飞轮以数据消费为核心驱动,能够帮助企业数据流充分融入业务流,实现数据资产和业务应用相互促进飞轮效应,从而激发员工创造力,增强业务发展动力,提升组织生命力”。

图片来自网络

部分观点:

  1. 数据飞轮本质上是帮助企业更优更快地实现数据驱动”;
  2. “企业践行数据驱动的三板斧,是要通过数据分析厘清需要【做什么】,再通过市场画像判断【给谁做】,最终通过A/B实现确定【怎么做】,“这三板斧中的问题,其实都可以通过数据飞轮的运转找到正确答案”;
  3. 智能是数据飞轮有效转动的最后一公里”;
  4. 火山引擎数据产品负责人郭东东还重点介绍了数据飞轮积极融合包括大模型能力等在内的新技术进展:大数据研发治理套件DataLeap-找数助手和开发助手智能数据洞察DataWind-分析助手

通过对大模型能力的应用,DataLeap-找数助手可以帮助汽车企业员在取得授权的条件下,通过自然语言问答就能在数据库中找到对应的数据;而DataLeap-开发助手则可以帮助员工通过自然语言问答的形式,自动生成代码或者修复优化代码,进一步降低数据开发门槛。

在使用场景更广泛的数据分析方面,DataWind-分析助手支持汽车企业员工仅用自然语言对话,就能对数据进行多维度交叉分析和多种形式呈现,比如针对实时性较强的跨地域整车销量统计,销售岗位的员工只需在DataWInd-分析助手对话框中输入想要获取的数据,而无需再等待数据开发、数据分析等跨部门需求响应排期,即可获取对应数据,省时省力。(非技术人员可以快速实现需求满足)

参考:

  1. 极客时间:AI大模型之美【27|从Midjourney开始,探索AI产品的用户体验】
  2. ​​​​​​​​​​​​大模型时代,「数据飞轮」怎么做? | 极客公园
  3. 数据飞轮汽车行业最新分享:营销场景下的7个维度问题解决
  4. 大模型时代,企业如何构建自己的飞轮效应?
  5. 《飞轮效应》图书:吉姆・柯林斯

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1259662.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

单片机学习10——独立按键

独立按键输入检测&#xff1a; #include<reg52.h>sbit LED1P1^0; sbit KEY1P3^4;void main() {KEY11;while(1){if(KEY10) //KEY1按下{LED10; //LED1被点亮}else{LED11;}} } 按键 #include<reg52.h>#define uchar unsigned char #define uint unsigned intsbit …

linux下的工具---vim

一、了解vim 1、vim是linux的开发工具 2、vi/vim的区别简单点来说&#xff0c;它们都是多模式编辑器&#xff0c;不同的是vim是vi的升级版本&#xff0c;它不仅兼容vi的所有指令&#xff0c;而且还有一些新的特性在里面。例如语法加亮&#xff0c;可视化操作不仅可以在终端运行…

苍穹外卖项目笔记(5)——Redis

1 入门 1.1 Redis 简介 Redis 是一个基于内存的 key-value 结构数据库&#xff0c;官网链接&#xff08;中文&#xff09;&#xff1a;https://www.redis.net.cn 特点&#xff1a; 基于内存存储&#xff0c;读写性能高适合存储热点数据&#xff08;热点商品、资讯、新闻&am…

数据结构与算法编程题31

判断给定二叉树是否是完全二叉树 #define _CRT_SECURE_NO_WARNINGS#include <iostream> using namespace std;typedef char ElemType; #define ERROR 0 #define OK 1 #define Maxsize 100 #define STR_SIZE 1024typedef struct BiTNode {ElemType data;BiTNode* lchild, …

160 相交链表

解题思路&#xff1a; \qquad 若两个链表a, b相交&#xff0c;则它们之间的区别就仅在于相交节点之前的部分&#xff08;其实任意两个链表最终都会相交&#xff0c;最坏相交于NULL节点&#xff09;。一开始的思路&#xff1a; \qquad\qquad\qquad 1、找到两个链表较长的那个&…

Linux基础项目开发1:量产工具——程序框架(一)

前言&#xff1a; 前面已经将Linux应用开发基础知识学习完了&#xff0c;现在让我们来做个小项目练练手&#xff0c;对之前的一些知识点进行一个更加具体详细的认识与了解&#xff0c;我们要进行的项目名称为&#xff1a;电子产品量产测试与烧写工具&#xff0c;这是一套软件&a…

车内总线通信技术简述

1. 前言 本文主要分享一些汽车总线通信技术&#xff08;CAN、CANFD、LIN、Flex Ray、MOST、LVDS、TTP/C、Ethernet&#xff09;&#xff0c;希望对大家能有所帮助。 2. 多种汽车总线通信技术 2.1 CAN CAN&#xff08;Controller Area Network&#xff09;全称为“控制器局域…

priority_queue模拟实现

目录 仿函数 模拟实现 结果 大根堆 小根堆 完整代码 priority_queue.h test.c 仿函数 仿函数的通俗定义&#xff1a;仿函数&#xff08;functor&#xff09;又称为函数对象&#xff08;function object&#xff09;是一个能行使函数功能 的类。仿函数的语法几乎和我们…

【力扣】56. 合并区间

【力扣】56. 合并区间 文章目录 【力扣】56. 合并区间1. 题目介绍2. 解法2.1 方法一&#xff1a;标志位2.2 方法二&#xff1a;排序 遍历 3. Danger参考 1. 题目介绍 以数组 intervals 表示若干个区间的集合&#xff0c;其中单个区间为 intervals[i] [starti, endi] 。请你合…

myAGV 2023 Pi 全新升级!

Introduction 在高速发展的自动化和机器人技术领域&#xff0c;我们的公司一直致力于提供高效、灵活且可靠的轻量级机械臂解决方案。然而&#xff0c;我们也深知&#xff0c;传统的机械臂需要固定在一个地方&#xff0c;这在一定程度上限制了其在空间上的应用范围。为了突破这一…

Error opening terminal: xterm.”的解决方法

主要是看下面这两个变量是否设置正确 $ echo $TERM $ echo $TERMINFO 通常TERM的默认值为xterm-265color, 要查看支持的term&#xff0c;可以ls -al /lib/terminfo/x/ 如果TERM是xterm-265color的话&#xff0c;TERMINFO设置为/usr/lib/terminfo make menuconfig时提示“Err…

阿里元境亮相第八届世界物联网大会,分享元计算对数字文旅的创新赋能

2023&#xff08;第八届&#xff09;世界物联网大会于11月20日在中国北京隆重开幕。联合国秘书长安东尼奥古特雷斯在开幕式发表书面致辞时特别提到&#xff1a;“在一个相互连接的世界&#xff0c;你们的主题‘新物联、新经济、新时代’是数字技术影响力的见证”。 11月21日上午…

HCIA-H12-811题目解析(1)

1、【多选题】关于动态 MAC 地址表说法正确的是&#xff1f; A、通过报文中的源MAC地址学习获得的动态MAC表项会老化 B、通过查看指定动态MAC地址表项的个数&#xff0c;可以获取接口下通信的用户数 C、在设备重启后&#xff0c;之前的动态表项会丢失 D、在设备重启后&…

Unity性能优化技巧篇

资源导入优化 随着项目越来越大&#xff0c;资源越来越多&#xff0c;有一套资源导入自动化设置很有必要&#xff0c;它不但可以减少你的工作量&#xff0c;也能更好的统一管理资源&#xff0c;保证资源的导入设置最优&#xff0c;还不会出错。 AssetPostprocessor 在Unity中…

【Java从入门到大牛】Java高级技术

&#x1f525; 本文由 程序喵正在路上 原创&#xff0c;CSDN首发&#xff01; &#x1f496; 系列专栏&#xff1a;Java从入门到大牛 &#x1f320; 首发时间&#xff1a;2023年11月27日 &#x1f98b; 欢迎关注&#x1f5b1;点赞&#x1f44d;收藏&#x1f31f;留言&#x1f4…

探索 V8 引擎的内部:深入理解 JavaScript 执行的本质

&#x1f90d; 前端开发工程师&#xff08;主业&#xff09;、技术博主&#xff08;副业&#xff09;、已过CET6 &#x1f368; 阿珊和她的猫_CSDN个人主页 &#x1f560; 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 &#x1f35a; 蓝桥云课签约作者、已在蓝桥云…

nodejs+vue+mysql皮具行李箱包包网上商城购物网站

本系统可分为两个大的模块&#xff0c;即前台用户模块和后台管理员模块&#xff0c;前台用户模块用户可以进行浏览查询皮具的各种信息&#xff0c;添加购物车&#xff0c;下订单等各种操作。后台管理员模块管理员可以进行皮具的处理&#xff0c;还有处理订单&#xff0c;皮具分…

数据结构--->单链表

文章目录 链表链表的分类 单链表单链表的存储结构单链表主要实现的接口函数单链表尾插动态申请新节点单链表头插单链表的尾删单链表的头删在指定位置之前插入单链表查找插入 在指定位置之后插删除指定位置元素删除指定位置之后的元素顺序输出链表销毁单链表 顺序表和单链表的区…

excel单元格内换行按什么快捷键

如果我们使用excel软件的时候&#xff0c;因为一些日常的操作太过繁琐想要简化自己的操作步骤的话&#xff0c;其实是有很多快捷方式在其中的。那么对excel单元格内换行按什么快捷键这个问题&#xff0c;据小编所知我们可以在表格中使用Alt Enter来进行换行。详细内容就来看下…