漫画：大模型用于腾讯广告，难在哪？

（一）关键词：三大套路

大模型火了，大模型的套路也火了。

套路一：

但凡有点科技含量的公司，

没个大模型都对不起“市值”和“估值”。

面子谁不要？

那用开源。

套路二：

说早有布局，

却无论文，

无数据，

无“卡”，

无历史进展，

套路三：

为了“大”而“大”。

谭老师我和腾讯AI科学家深聊：

广义线性模型的时代，腾讯广告也曾追求过参数量大。

然而，这种模型学习能力很一般。

如果只是模型的参数总量高，参与计算的参数量却很少，

这样的“大模型”，没意思。

腾讯在AI这块不算“激进派”，但大模型没玩套路。

腾讯广告将两个大模型用到了广告业务。

参数都是千亿级别。

既然是两个，分工多说两句。

广告大模型提升了广告系统的运算能力，

腾讯混元大模型提升了广告系统的理解和生成能力。

我们先聊广告大模型，再聊混元大模型。

（二）关键词：广告商机转瞬即逝

先聊聊，广告竞争的本质。

从“从前”讲起，

百货商店橱窗里的塑料假人，是展示，也是广告。

后来，美国人研究如何用计算的方法求解广告中的各类问题。

将一部分的计算策略交给机器学习。

早期，广告对机器学习模型的要求，哪怕能力弱一点，算得快一点就可以了。

比如，给一条男士冲浪花裤衩打个广告。

广告系统有三层：

召回，粗排，精排。

每层边选，边匹配。

广告系统里的模型，有些像漏斗。

先粗排，

模型发现：这条花裤衩男的喜欢，女的无感。

再精排，

模型发现花裤权不是所有男性都喜欢，颜色骚气，

大约20岁左右的精神小伙喜欢。

模型必须做到越往下，越匹配，

还为广告主节约广告费。

匹配这个动词很重要。

谭老师也想把漫画“匹配”给喜欢自己作品的读者，

性格不合的那种，确认不了眼神。

拿谭老师常看的视频号来说，

广告系统会猜我对视频的兴趣，从而推荐视频，

猜我对商品的兴趣，从而展示广告。

手机下滑一下，

大约9毫秒，

就得猜到这个瞬间我最有可能的喜好。

这里的猜，就是计算。

模型抓规律很擅长，头部规律好抓，长尾则很麻烦。

偏偏腾讯广告有很多长尾问题。

偏偏用户数量大，

偏偏广告数量大。

而且广告匹配的要求是，不仅要准，还要快。

一句“商机转瞬即逝”，放在这里非常合适。

谭老师刚买一支手机，

广告出手慢了，买前没看到，买后不想看。

“商机转瞬即逝”，慢了，就输了。

这就是广告竞争的本质。

（三）关键词：广告“硬核”简史

2014年，腾讯广告平台实时在线技术完成。

2015年，深度学习技术完成。

这两个“完成”，都指的是全量上线。

在大模型技术爆发前的世代里，

没有什么比腾讯广告在2016年“实时在线学习+深度学习”全量上线完成更重要了。

团队的结论是：

广告平台应该是在更大范围的产品线，

在更长的数据链路上，全面释放模型的威力，

模型做大，不是目的，而是手段。

于是，把模型往大了做。

于是，数据链路拉长。

2020年前后，质变发生了，腾讯广告整个技术思路的转变了。

在腾讯公司副总裁蒋杰的带领下，团队看清了技术方向，

前浪大储备，后浪打硬仗。

狂飙技术，不是自嗨，而是商业需求。

技术朝着有需求的方向推进，终于抵达“大模型界碑”。

2021年10月，发起技术攻坚，

（腾讯员工的说法是：

作为内部发起的革新型项目，

对内称呼为“下一代广告系统”。）

项目包括广告大模型，混元大模型，

一共集结了800余名跨BG团队的同学。

毫无疑问，谁能打破技术难度的瓶颈，谁就是头部科技企业，

再加一个条件，越早越好。

缮甲厉兵，酣战飒然，黄龙痛饮。

劲射火力点。

干得行不行，看看指标吧。

全套指标涉及商业机密，我们抽取其中一个技术指标：

“大规模技术突破之前，精排时延的阈值是70毫秒，突破之后拉到200毫秒，将近3倍左右。”

给广告系统配套大模型，底层软件也是另一境界的考验。

训练这么大的模型，存储，计算，通讯翻倍，甚至量级的提升，这块工程团队下了很大力气。

为了做好底层工作，甚至把部分关键架构重新写了一遍。

把以前好的想法融合进去，大幅增强它的伸缩性、容错能力，支持千亿大模型训练。

这一把，中国科技公司将大规模工程技术做到极致。

方案依然还是这么一个方案，只不过模型规模，整个系统能力等等，不可同日而语了。

腾讯公司副总裁蒋杰带领腾讯广告团队，制定出一套自上而下，全局最优的推进路径，将多个技术团队与业务协同，带队完成了下一代广告系统建设。

广告大模型怎么用？

将资源聚焦于精排，排序能力更好，点击率与转化率绝对值估准。

精排预估准，提升全链的运算推荐效率。

广告大模型能为广告主提供什么“特殊服务”？

因为广告系统的运算能力可以支撑多个小模型同时运行，所以，广告主可以在系统上与腾讯广告再共建小模型，做出更多从广告主业务出发的推荐匹配，提升匹配效率。

有的人，练了屠龙术，结果发现没有龙。

腾讯广告系统“有龙”，所以“屠龙”，

且练成两大屠龙术：

广告大模型和混元大模型。

（四）关键词：腾讯混元怎么用？

广告的复杂环境，也让腾讯混元得到充分打磨。

团队内部对腾讯混元大模型不断自审式发问：

第一重难关：如何把技术搞出来。

第二重难关：这是真实业务场景所需要的技术吗？如何落地？

巧不巧，腾讯混元是多模态的，腾讯广告内容天然也是多模态的。

在这个巧合的背后，腾讯混元从出生开始，就是为“用在哪里”设计的，而不是“套路”。

广告内容是什么？

是广告标题、文字、图片、视频等。

简单说，腾讯混元先做“亿点”广告内容的阅读理解，做完，再将“答案”喂给广告大模型。

据谭老师观察，

以广告大模型提升广告和用户的匹配准确率，

以腾讯混元大模型理解、生成广告内容，包括素材和创意。

小道消息，腾讯混元已经将这项生成能力，用于广告投放前的准备阶段：

“素材创作”“商品合成”“游戏出图”。

（五）关键词：“大”算法思想

（学霸选读）

虽然广告大模型已经很大了（有千亿参数），想用一个大模型把所有的场景都学好，没有那么容易。

腾讯广告大模型核心负责人薛伟博士告诉我，

比如，模型会产生场景之间的负面影响“我学不好，你也甭想学好”。

这种现象叫“负迁移”。广告大模型中，薛伟博士用到了“公共塔”技术。

公共塔，样子像塔，其实是大模型内部独立子网络。

广告模型大，内部子网络丰富，还有商品（Item）塔，用户（User）塔。这类子网络专门学习特征的共性，降低场景之间的干扰。

不同场景参数不同，推荐汽车，不能把推荐手机的参数也算一遍。

大模型的出现，让算法设计空间变大，让设计的余地更大，有机会用算法的思想充分释放大模型的价值。

好马配好鞍，

好产品配好广告。

1997年，苹果手机“非同凡想”广告里面有这样一句话：

那些疯狂到以为自己能够改变世界的人呢，才能真正改变世界。

要我说，这样爽感的广告，再多来几个。

（完）

更多阅读

AI大模型与ChatGPT系列：

1. ChatGPT大火，如何成立一家AIGC公司，然后搞钱？

2. ChatGPT：绝不欺负文科生

3. ChatGPT触类旁通的学习能力如何而来？

4. 独家丨从大神Alex Smola与李沐离职AWS创业融资顺利，回看ChatGPT大模型时代“底层武器”演进

5. 独家丨前美团联合创始人王慧文“正在收购”国产AI框架OneFlow，光年之外欲添新大将

6. ChatGPT大模型用于刑侦破案只能是虚构故事吗？

7. 大模型“云上经济”之权力游戏

8. 云从科技从容大模型：大模型和AI平台什么关系？为什么造行业大模型？

9. 深聊第四范式陈雨强丨如何用AI大模型打开万亿规模传统软件市场？

10. 深聊京东科技何晓冬丨一场九年前的“出发”：奠基多模态，逐鹿大模型

11. 老店迎新客：向量数据库选型与押注中，没人告诉你的那些事

12. 抢滩大模型，抢单公有云，Databricks和Snowflake用了哪些“阳谋”？

13. 大模型“搅局”，数据湖，数据仓库，湖仓选型会先淘汰谁？

14. 微调真香，漫画科技博主竟然在用国产大模型生成系列漫画女主角

15. 美国大模型风向速报（一）为何重视提示工程？LangChain+向量数据库+开源大模型真香

16. AI咆哮后，一个赚大钱的AI+Data公司估值居然430亿美元？

17. 跳槽去搞国产大模型，收入能涨多少？

AI大模型与学术论文系列：

1. 开源“模仿”ChatGPT，居然效果行？UC伯克利论文，劝退，还是前进？

2. 深聊王金桥丨紫东太初：造一个国产大模型，需用多少篇高质量论文？（二）

3. 深聊张家俊丨 “紫东太初”大模型背后有哪些值得细读的论文（一）

漫画系列

1. 是喜，还是悲？AI竟帮我们把Office破活干完了

2. AI算法是兄弟，AI运维不是兄弟吗？

3. 大数据的社交牛气症是怎么得的？

4. AI for Science这事，到底“科学不科学”？

5. 想帮数学家，AI算老几？

6. 给王心凌打Call的，原来是神奇的智能湖仓

7. 原来，知识图谱是“找关系”的摇钱树？

8. 为什么图计算能正面硬刚黑色产业薅羊毛？

9. AutoML：攒钱买个“调参侠机器人”？

10. AutoML：你爱吃的火锅底料，是机器人自动进货

11. 强化学习：人工智能下象棋，走一步，能看几步？

12. 时序数据库：好险，差一点没挤进工业制造的高端局

13. 主动学习：人工智能居然被PUA了？

14. 云计算Serverless：一支穿云箭，千军万马来相见

15. 数据中心网络：数据还有5纳秒抵达战场

16. 数据中心网络：迟到不可怕，可怕的是别人都没迟到

AI框架系列：

1.搞深度学习框架的那帮人，不是疯子，就是骗子（一）

2.搞AI框架那帮人丨燎原火，贾扬清（二）

3.搞 AI 框架那帮人（三）：狂热的 AlphaFold 和沉默的中国科学家

4.搞 AI 框架那帮人（四）：AI 框架前传，大数据系统往事

注：（三）和（四）仅收录于《我看见了风暴》。

漫画：大模型用于腾讯广告，难在哪？

相关文章

代码随想录Day16 LeetCode T654 最大二叉树 T617 合并二叉树 T700 二叉搜索树中的搜索

vue原生实现element上传多张图片浏览删除

使用 Eziriz .NET Reactor 对c#程序加密

内存操作函数（memcpy、memmove、memset、memcmp）---- C语言

新鲜速递：Spring Cloud Alibaba环境在Spring Boot 3时代的快速搭建

计算机丢失msvcr120.dll解决办法，快速解决的力量文件丢失

从 0 到 1 ,手把手教你编写《消息队列》项目(Java实现) —— 编写服务器

使用香橙派并基于Linux实现最终版智能垃圾桶项目 --- 上

电子科大软件系统架构设计——系统架构设计

网络原理~初识

C语言-贪吃蛇 1.输入控制ncurse

C#和JS交互之Microsoft.ClearScript.V8（V8引擎）

STM32使用HAL库驱动DS3231

什么是UI自动化测试工具?

淘宝天猫店铺所有商品数据接口，淘宝API接口

Ghidra101再入门(上？)-Ghidra架构介绍

ASEMI整流桥GBU810参数，GBU810封装

Ubuntu18.04下载安装基于使用QT的pcl1.13+vtk8.2，以及卸载

企业如何使用CRM客户管理系统全面了解客户

C++入门之命名空间详解