26 岁的“天才少年”,带队面壁打通高效大模型之路

news2025/1/18 9:01:31

每一轮技术浪潮出现时,冲在最前面的都是朝气蓬勃的年轻人。

当大模型代表的人工智能浪潮席卷全球,作为移动互联网“原住民”的年轻开发者,可以说是最活跃的群体。他们的脸庞还有些稚嫩,但在技术和方向上有着自己的想法,在火热的 AI 赛道里加速狂奔,努力打下一片新天地。

面壁智能 CTO 曾国洋就是其中的佼佼者,26 岁的年纪管理着清华系明星大模型创业公司的研发团队,坚定地踏上了 AGI 征途。

01 十多年开发经验的创业公司 CTO
在许多人的印象中,24 岁不过是研究生刚毕业的年纪,刚刚进入职场,扮演的还是“学徒”的角色。但在曾国洋的故事里,24 岁已经作为 CTO 带领着面壁智能的核心技术团队,同时也是一位有着十多年经验的资深开发者。

和 OpenAI 的创始人 Sam Altman 一样,曾国洋在 8 岁就开始学编程。身边的朋友、老师、父母等潜移默化地告诉他:“会写代码”是一件很厉害的事。于是从 Visual Basic 开始,懵懵懂懂地开启了编程之路。

到了中学时,曾国洋已经系统性地接触了 C/C++,喜欢在网上看一些国内外的资料,尝试写出更复杂的程序。因为“写代码”的爱好,曾国洋在高二时先后获得全国青少年信息学竞赛金牌和亚太地区信息学竞赛金牌,并因此被保送到清华,为日后的大模型创业埋下了伏笔。

没有高考压力的曾国洋,在 2015 年的冬令营上了解到旷视正在招实习生,抱着试一试的心态报了名,由此正式步入 AI 领域。

AlphaGo 和李世石的围棋大战,点燃了深度学习的热潮,无数年轻人为之彻夜不眠,曾国洋也不例外。大二期间,在室友的引荐下,曾国洋加入了清华大学 NLP 实验室,误打误撞成为中国最早一批大模型研究员,并在后来成为悟道·文源中文预训练模型团队的骨干成员。

十多年的开发经验,培养了曾国洋的工程化思维和能力,大学毕业时不甘于做象牙塔里的学术派,毅然加入到了大模型浪潮中。

在 OpenAI 发布 GPT-3 的第二年,为了解决大模型“训练难、微调难、应用难”的挑战,曾国洋作为联合发起人创建了 OpenBMB 开源社区,旨在打造大规模预训练语言模型库与相关工具,加速百亿级以上大模型的训练、微调与推理,以降低大模型的使用门槛,实现大模型的标准化、普及化和实用化,让大模型能够飞入千家万户。

清华大学计算机系长聘副教授刘知远在 2022 年牵头创办面壁智能时,曾国洋果断放弃了手里的多个 Offer,担纲这家大模型创业公司的技术 1 号位,完成了从一线开发者到大模型创业公司 CTO 的华丽转身。

02 “高效大模型就是面壁智能”
Scaling law,被看作是 OpenAI 的核心技术,简单来说,可以通过更复杂的模型、更大的数据量、更多的计算资源,提高模型的性能。前两年,国内外企业都在卷参数量,做到了千亿、万亿,甚至是十万亿,越到后面,但大家渐渐发现参数量更大,不代表模型效果更好。

在曾国洋看来:如果大模型作为实现 AGI 的关键路径,但成本却无比高昂,那么即使实现了 AGI,但 AGI 比人还贵、那也没太大意义,所以要降低模型成本。对于大模型落地来说,效率是很个关键的问题,需要控制成本来达到更好的效果,这样才能去扩展大模型的应用边界。

不久前举办的鲲鹏昇腾开发者大会 2024 上,曾国洋在演讲中表示:“面壁智能持续引领高效大模型路线,推动大模型高效训练、快步应用落地,以更快速度,更低成本,提供最优智能实现方案。”

首先要解决的就是高效训练。

公开数据显示,OpenAI 训练 GPT-3 的成本约为 430 万美元,到了 GPT-4 已经上涨到 7800 万美元,谷歌 Gemini Ultra 在计算上花费了 1.91 亿美元…比大模型能力更早指数性增长的,居然是大模型的训练成本。

该怎么提升大模型训练效率呢?

面壁智能在 2024 年初的一篇论文中提出了思路:如果大模型还未训练出来时就能预测性能大约在什么水平,可以先通过小模型做实验、调参数,再按照相同的数据配比、数调整等方法训练大模型。

其实在 2023 年,面壁智能就已经开始探索高效的 Scaling Law,用小十倍参数模型预测大十倍参数模型的性能,并且取得了不错的成绩:

旗舰端侧基座模型 MiniCPM 用 2.4B 的参数量,在性能上越级超越 Mistral-7B、Llama2-13B 乃至更大的全球知名模型;旗舰端侧多模态模型 MiniCPM-V 刷新了开源模型最佳 OCR 表现,部分能力比肩世界级多模态模型标杆 Gemini-Pro 与 GPT-4V。前两天发布的端侧最强多模态模型 MiniCPM-Llama3-V 2.5 ,超越多模态巨无霸 Gemini Pro 、GPT-4V 实现了「以最小参数,撬动最强性能」的最佳平衡点。“大”并非是唯一选项,小模型也可以实现同样的效果。

面壁智能的“高效”,不单单体现在训练环节。

在部署方面,面壁智能是模型厂商中最早提出“端云协同”的,通过协同推理的方式降低降低推理部署的成本、时延和能耗,让大模型可以跑在手机、电脑、汽车、音箱等低功耗的芯片。

以及大模型驱动的群体智能技术体系,包含智能体通用平台 AgentVerse、技术协同同台、应用层面的多智能体协作开发框架 ChatDev,帮助开发者打通大模型落地应用的最后一公里。

03 全流程加速大模型应用升级
基于丰厚原创技术底蕴,并匹配大模型这一系统工程的本质要求,面壁打造了一条从数据原材料、到模型制作过程中精湛训练与调校工艺环环相扣的全高效生产线。

譬如面壁智能独家的“沙盒实验”,让小模型验证大模型性能成为可能;Ultra 对齐技术,可以有效大模型的综合表现;现代化数据工厂,形成从数据治理到多维评测的闭环;高效的 Infra,为面壁智能的大模型训练打好了地基;训练框架 BMTrain、推理框架 BMINF、压缩框架 BMCook 和微调框架 BMTune 构成工具套件平台,可在降低 90%的训练成本同时,将推理速度提升 10 倍。

在创立之初,面壁智能就开始将大模型和国产软硬件基础设施做适配,想要从全流程加速大模型应用升级。直接的例子就是面壁智能和昇腾 AI 在软硬件的深度合作。

比如面壁智能基于昇腾基础软硬件完成了 CPM-BEE 大模型和 BMTrain 加速框架的迁移,通过两个关键步骤实现了 BMTrain 和昇腾的适配,通过亲和融合算子替换实现了大模型的性能提升,最终让 CPM、llama 等模型的集群训练性能与业界持平。

再比如基于昇腾底座采用 MindSpore 框架开展了深入的创新研究。在微调方面,面壁智能实现了多个下游任务 Sora 在使用不超过 1%的模型参数微调时,仍然能够超越其他微调方式;针对推理场景,面壁智能通过量化、蒸馏、剪枝等技术的灵活组合,在多项任务上压缩至 1/3 时,模型精度仍能保持 99%。

国内的大模型团队中,同时从算力、数据、算法切入的团队并不多见,为何面壁智能选择和昇腾 AI 一起,全面系统地推进大模型上下游工程?

曾国洋曾在媒体采访中这样说道:“我们追求的是,在同样的时间、同等参数量的条件下,实现更优的 Scaling Law。当模型的效率优化到一定程度的时候,如果要继续精进下去,就需要数据、算力与算法多者结合。”

这种不给自己设限的挑战精神,所带来的不单单是效率,还有通往 AGI 道路时的底气。

不少大模型团队为算力卡脖子问题焦虑的时候,曾国洋态度相当镇定:“对于比较早开展大模型研发的团队来说,国产化适配基本上都已经完成了,因为做的早嘛。其实国产化算力的差距没有想象的那么大,特别是像昇腾这些设备,目前已经达到了大规模商用的水平。”

和面壁智能一样,昇腾 AI 也在全流程使能大模型创新落地,从大模型的开发训练到推理部署。正是这些同道人的相向而行,让大模型开发不再是复杂的超级工程,每个开发者都能参与其中。

04 写在最后
大模型市场竞争激烈,技术迭代日新月异,但曾国洋连续几个月工作都不觉疲惫,用他自己的话说“因为我很相信 AGI 会实现。”

这正是年轻人的“可爱之处”,他们有挑战新事物的勇气,也有躬身入局的行动力,更重要的是,他们还是一群有理想的开发者。就像曾国洋在创办 OpenBMB 开源社区的初心:帮助千千万万的开发者降低门槛,让大模型飞入千家万户。面壁智能无疑是理想和初心的延续。

可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好,希望能够真正帮助到大家。

👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉大模型视频和PDF合集👈
观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述

在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1832619.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

微信小程序添加服务类目|《非经营性互联网信息服务备案核准》怎么获取

根据客服反馈,《非经营性互联网信息服务备案核准》在工业和信息化部政务服务平台网站查询,查询结果的截图就是《非经营性互联网信息服务备案核准》。 工业和信息化部政务服务平台 《非经营性互联网信息服务备案核准》: 与客服聊天的截图&a…

JavaEE、SSM基础框架、JavaWeb、MVC(认识)

目录 一、引言 (0)简要介绍 (1)主要涉及的学习内容 (2)学习的必要性 (3)适用学习的人群(最好有这个部分的知识基础) (4)这个基础…

如何用多线程执行 unittest 测试用例实现方案

前言 使用python做过自动化测试的小伙伴,想必都知道unittest和pytest这两个单元测试框架,其中unittest是python的官方库,功能相对于pytest来要逊色不少,但是uniitest使用上手简单,也受到的很多的小伙伴喜爱。一直以来都…

HarmoneyOS星河版 安装和启动

一、下载和安装DevEco Studio 官网链接:OpenAtom OpenHarmony 1.1 找到对应的操作系统进行下载 创建安装Harmony的文件夹: 1.2 下载后进行安装 1.3 分别安装Node、Ohpm、SDK 分别安装Node、Ohpm和SDK 二、.创建一个新项目并运行 2.1 选择[OpenHarmon…

【YOLOv8改进[注意力]】在YOLOv8中添加ECA高效通道注意力(2020.4)的实践 + 含全部代码和详细修改方式 + 手撕结构图

本文将进行在YOLOv8中添加ECA高效通道注意力的实践,助力YOLOv8目标检测效果的实践,文中含全部代码、详细修改方式以及手撕结构图。助您轻松理解改进的方法。 改进前和改进后的参数对比: 目录 一 ECA 二 在YOLOv8中添加ECA注意力

基于SpringBoot+VueBBS论坛系统设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍:✌全网粉丝1W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码数据库🌟 感兴趣的可以先收藏起来,还…

XSS学习(绕过)

学习平台&#xff1a;xss.tesla-space.com XSS学习&#xff08;绕过&#xff09; level1level2level4level5level6level7level8level9level10level11level12 level1 应该没有过滤 https://xss.tesla-space.com/level1.php?name<script>alert(1);</script> leve…

代码解读 | Hybrid Transformers for Music Source Separation[07]

一、背景 0、Hybrid Transformer 论文解读 1、代码复现|Demucs Music Source Separation_demucs架构原理-CSDN博客 2、Hybrid Transformer 各个模块对应的代码具体在工程的哪个地方 3、Hybrid Transformer 各个模块的底层到底是个啥&#xff08;初步感受&#xff09;&#xff1…

vivado PIN

描述 引脚是基元或层次单元上的逻辑连接点。引脚允许 要抽象掉单元格的内容&#xff0c;并简化逻辑以便于使用。引脚可以 是标量的&#xff0c;包含单个连接&#xff0c;或者可以定义为对多个进行分组的总线引脚 信号在一起。 相关对象 引脚连接到一个单元&#xff0c;并且可以…

服务器----阿里云服务器重启或关机,远程连接进不去,个人博客无法打开

问题描述 在使用阿里云免费的新加坡服务器时&#xff0c;发现重启或者是关机在开服务器后&#xff0c;就会出现远程连接不上、个人博客访问不了等问题 解决方法 进入救援模式连接主机&#xff0c;用户名是root&#xff0c;密码是自己设置的 点击访问博客查看更多内容

相约北京“信通院数据智能大会”

推动企业数智化转型发展&#xff0c;凝聚产业共识&#xff0c;引领行业发展方向&#xff0c;摩斯将参与信通院首届“数据智能大会”&#xff08;6月19-20日&#xff0c;北京&#xff09;。 本次大会设置多个主题论坛&#xff0c;将发布多项研究成果&#xff0c;分享产业最新实…

MDK 代码烧录到RAM区运行

MDK 代码烧录到RAM区运行 环境配置设置分散加载文件启动文件修改设置外部调试器烧录 建立函数入口半主机问题导致BKPT 0xAB 有一个需求&#xff0c;除了IAR以及GCC的版本工程还需要MDK版本&#xff0c;为了实现最小的工程环境&#xff0c;flash烧录算法也没有&#xff0c;这时需…

三分钟搞懂AI Agent!

0 前言 无需为不同任务使用单独软件使用日常语言来命令你的设备“代理”是人工智能的高级形式未来五年将成为现实人人都有的私人助理Agent应用在干行百业之中(医疗、教育、娱乐....) 1 Agents 是什么&#xff1f; Al Agents是基于LLM的能够自主理解、自主规划决策、执行复杂任…

复旦发布开源版本的EMO,只需输入一段音频和一张照片就可以让人物开始说话。

之前和大家介绍过阿里的EMO&#xff0c;用户只需要提供一张照片和一段任意音频文件&#xff0c;EMO即可生成会说话唱歌的AI视频。最长时间可达1分30秒左右。感兴趣的小伙伴可以点击下面链接阅读。 近日&#xff0c;复旦发布了一个开源版本的 EMO。 通过输入音频让面部照片开始…

示例:WPF中绑定枚举到ComboBox的方式

一、目的&#xff1a;在开发过程中&#xff0c;经常会需要把枚举绑定到ComboxBox下拉列表中&#xff0c;其实方法有很多&#xff0c;这里面通过MarkupExtension扩展GetEnumSourceExtension去绑定到列表 二、实现 定义GetEnumSourceExtension类 public class GetEnumSourceExte…

前端菜鸡流水账日记 -- git管理工具(多版本)

哈喽哇&#xff0c;我又又又来了&#xff0c;其实之前就挺想进行一篇关于git管理工具的分享的&#xff0c;但是一直都没有来的及&#xff0c;直到今天&#xff0c;在学习的时候&#xff0c;&#xff0c;一个朋友新发现了一个vscode中的小插件&#xff0c;所以我就决定一起来分享…

DPDK环境配置

DPDK环境配置 DPDK&#xff08;Data Plane Development Kit&#xff09;是一个开源的软件框架&#xff0c;最初由Intel开发&#xff0c;旨在提升数据包处理性能&#xff0c;尤其是在Intel架构的处理器上。它允许开发者在用户空间&#xff08;user space&#xff09;而不是传统…

EasyRecovery2024你的电脑数据恢复神器!

EasyRecovery电脑数据恢复软件&#xff0c;简直是我的数据救星啊&#xff01;&#x1f64c;以前不小心删除了一些重要的文件&#xff0c;整个人都慌了神。但自从有了它&#xff0c;再也不用担心数据丢失的问题啦&#xff01;&#x1f481;‍♀️ 这款神奇的软件不仅可以恢复误…

持续学习的综述: 理论、方法与应用

摘要 为了应对现实世界的动态&#xff0c;智能系统需要在其整个生命周期中增量地获取、更新、积累和利用知识。这种能力被称为持续学习&#xff0c;为人工智能系统自适应发展提供了基础。从一般意义上讲&#xff0c;持续学习明显受到灾难性遗忘的限制&#xff0c;在这种情况下…

个人在家如何获取World Scientific文献的经验分享

今天有位同学求助一篇World Scientific文献&#xff0c;他的学校虽然有这个数据库&#xff0c;但订购的该数据库资源内容有限&#xff0c;这位同学所需的文献不在学校订购范围内所以下载不了。今天小编就分享一个在家就可获取各个数据库文献的方法。本文以这篇求助文献为例&…