LLM大模型学习:开源大模型技术路线及趋势

news2024/12/24 2:55:46

MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。

转载自 | 知乎

作者 | 晴天

三个维度

大模型研发力量

  • 学术机构

  • 大模型创业公司

  • 科技大厂

旗舰开源模型的形态/模态

  • 基础大模型 -> instruct大模型 -> 多模态(VL大模型 -> 类gpt-4o大模型)

时间线

  • 23年上半年

  • 23年下半年

  • 24年

  • 25年

核心观察

学术机构及创业公司式微,科技大厂主导开源大模型。

随着资源需求越来越大,学术机构由于资金不足而逐渐式微,基础大模型的开源主力,从百花齐放收敛到科技大厂,而前沿模型尤以llama及qwen为主。(比如,智源研究院不再发布新的基础大模型,上海AI实验室开源的大模型一直未能突破20B)

科技大厂,除meta(llama)和阿里(qwen)外,虽然谷歌、微软、苹果也加入开源赛道并愈加重视,但仍局限于30B以下的轻量模型。因此,前沿开源大模型,国外仍由llama引领(grok次之),国内由qwen引领(deepseek次之)。

大模型创业公司,除了x.ai和deepseek外,也逐渐回归商业,要么直接退出开源赛道,要么保守发布轻量版模型(比如,百川已经不再发布新的开源大模型,智谱GLM开源模型始终不超过10B,零一万物开源模型不超过34B,gpt/claude/minimax/kimi未开源)。

开源技术路线

仅论通用模型,不含领域模型。

(1)23年上半年

关键词:微调、汉化
痛点/机会点:没有足够好用的instruct模型、擅长中文的模型
彼时,llama1尚未发布instruct模型,不少学术机构及科技公司,从事基于llama的微调和汉化并开源(比如斯坦福的alpaca、UC伯克利的vicuna、IDEA研究院的ziya、链家科技的belle),也有部分组织直接攻入基础模型(比如智源研究院的aquila)。

(2)23年下半年

关键词:基础模型
痛点/机会点:基础模型还不够好
llama2同时发布基础和instruct模型,此时,微调llama的空间变小但汉化llama依旧很有必要。之后随着baichuan2-13B、qwen-72B的开源,汉化llama的必要性已经微乎其微。因此,开源生态的竞争缩小到基础模型上面,学术机构、创业公司频繁交替开源更强的基础模型(比如aquila2-70B、xverse-65B、deepseek-67B),主流的顶尖模型已推进到70B的门槛。

(3)2024年

关键词:多模态
痛点/机会点:没有足够好用的开源多模态大模型
由于顶尖模型的门槛已到70B,继续竞争太耗资源,而且难敌重金押注的llama(已经卷到405B),几乎所有学术机构及大部分科技公司退出顶尖开源模型的竞争,而将注意力和研发资源转向“并不太耗资源的”多模态大模型(比如internVL、llava、minicpm-v、cogvlm)。

(4)2025年(预期)

关键词:开源界的通用大模型竞争结束
痛点/机会点:转向大模型应用,包括agent、领域大模型25年甚至更早(24年底),meta会推出顶尖的多模态大模型llama3.1-v甚至llama4-v(阿里很可能推出qwen2-vl),届时,大部分学术机构及科技公司微调的多模态大模型将失去竞争力,大模型应用将广泛使用meta及阿里的开源多模态大模型。

在这里插入图片描述

如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2171513.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数电基础(组合逻辑电路+Proteus)

1.组合逻辑电路 1.1组合逻辑电路的分析 1.1.1组合逻辑电路的定义 组合逻辑电路的定义 (1)对于一个逻辑电路,其输出状态在任何时刻只取决于同一时刻的输入状态,而与电路的原来状态无关,这种电路被定义为组合逻辑电路…

MySQL 之索引详解

想象一下,你正在图书馆寻找一本关于 MySQL 索引的书。图书馆里有成千上万本书,但没有目录。你只能一排一排、一本一本地找,直到找到你想要的书。这将会花费大量的时间!数据库索引就像图书馆的目录一样,可以帮助数据库系…

什么是智享AI直播(三代)?一文带你全面解析!

什么是智享AI直播(三代)?一文带你全面解析! 在当今这个数字化飞速发展的时代,技术的每一次革新都深刻地改变着我们的生活与工作方式。随着人工智能(AI)技术的不断成熟与普及,智享AI…

【mysql】千万级数据MySQL索引优化实例

【mysql】千万级数据MySQL索引优化实例 【一】场景描述【二】生成数千万条记录【三】原始sql分析【四】第一次优化:常规索引【五】第二次优化:覆盖索引【六】第三次优化:减少数据量【七】第四次优化:小表驱动大表【八】第五次优化…

蓝桥杯模块二:数码管的静态、动态实现

模块二训练 1.静态显示 一、数码管电路图 二、电路分析 1.数码管电路分析 端口分公共端和段码,先用公共端控制一个数码管,再用段码实现显示数字。共阳数码管公共端输入高电平,段码输入低电平实现点亮 2.锁存器 Y7控制段码,Y6控…

机器学习学习笔记-20240927

文章目录 一些简单的指令数据操作广播机制 标量,向量,矩阵的相互求导1. 标量对标量的求导2. 标量对向量的求导3. 向量对标量的求导4. 向量对向量的求导5. 矩阵对标量的求导6. 矩阵对向量的求导 链式求导法则YYDS求出损失函数偏导为0时的最优解w*1. 损失函…

卷轴模式商城APP开发指南

卷轴模式商城APP的开发是一项融合了技术创新、用户体验优化与商业策略实施的综合性工程。本文将从程序员的角度出发,详细介绍该类型应用的开发流程,涵盖从需求分析到后期维护的各个环节。 一、需求分析 首先,明确APP的核心功能需求&#xff…

从0-1搭建海外社媒矩阵,详细方案深度拆解

做买卖,好的产品质量固然是关键,但如何让更多的消费者知道?营销推广是必不可少的。在互联网时代,通过社交媒体推广已经成为跨境电商卖家常用的广告手段。 如何通过海外社交媒体矩阵扩大品牌影响力,实现营销目标&#…

又一篇Nature!可解释GNN今年持续发力,创新思路有时候就这么简单!

最近发现了一篇优秀的Nature子刊论文,作者提出了一种基于可解释GNN癌症基因分析新框架,在预测任务中实现了卓越的性能表现。 除此之外,还出现了很多可解释GNN的新研究,其中顶会不少,可见无论在学术界和工业界&#xf…

AES CCM详解

AES CCM是一种对数据进行加密及完整性检查的算法,主要用到AES中的CBC(完整性检查)和CTR(对明文进行加密),除此之外,还涉及到对数据的格式化(本文着重阐述)。 文章目录 加密过程STEPS 解密及校验过程STEPS 格式化B0的构成B0解析举例AAD的格式化…

企业微信扫码登录

请求url 可以看到如下结果: 请求的URL是 reqauth.aspx,这是发起认证的第一步,这个请求的返回结果是一个 XML 数据,包含一个 ReqID,用户授权的地址 AuthUrl 以及查询结果的地址 ResultUrl。 如果直接访问这个地址&…

sysctl 命令:Linux内核参数管理

一、命令简介 ​sysctl​是一个用于查看、设置和管理内核参数的命令行工具。 ‍ 二、命令参数 sysctl [选项] [内核参数]选项: ​-a​, --all​: 显示所有参数及其当前值。​-n​: 仅显示值,不显示参数名。​-w​: 设置参数的值。 ‍ 三、命令示例 查看所有…

理解:基础地理实体相关概述

理解:基础地理实体相关概述 地理实体 geo-entity 现实世界中占据一定且连续空间位置和范围、单独具有同一属 性或完整功能的地理对象。 基础地理实体 fundamental geo-entity 通过基础测绘采集和表达的地理实体,是其他地理实体和相关 信息的定位框架与…

Spring Security 是一个强大的和高度可定制的身份验证和访问控制框架。它是 Spring 项目家族的一员,用于构建安全的 Java 应用程序。

Spring Security 是一个强大的和高度可定制的身份验证和访问控制框架。它是 Spring 项目家族的一员,用于构建安全的 Java 应用程序。Spring Security 提供了全面的安全服务,从基本的登录认证到复杂的访问控制,几乎涵盖了所有与安全相关的需求…

线程与线程安全,生产消费者模型

线程与进程 2390. 从字符串中移除星号 给你一个包含若干星号 * 的字符串 s 。 在一步操作中,你可以: 选中 s 中的一个星号。移除星号 左侧 最近的那个 非星号 字符,并移除该星号自身。 返回移除 所有 星号之后的字符串**。** 注意&#xff1a…

ubuntu 设置静态IP

一、 ip addresssudo nano /etc/netplan/50-cloud-init.yaml 修改前: 修改后: # This file is generated from information provided by the datasource. Changes # to it will not persist across an instance reboot. To disable cloud-inits # ne…

深度解析与解决方案:U盘有盘符但无法打开的困境

引言:U盘困境初现 在日常工作与生活中,U盘作为便携式存储设备,扮演着数据传输与备份的重要角色。然而,不少用户会遇到这样一个棘手问题:U盘在插入电脑后能够正常显示盘符,但尝试打开时却遭遇拒绝访问或提示…

巧用时间换空间:解读 ArcGraph 如何灵活应对有限内存下的图分析

导读:ArcGraph 是一款云原生架构、存查分析一体化的分布式图数据库。本文将详细解读 ArcGraph 如何灵活应对有限内存下的图分析。 01 引言 在图分析技术广泛应用的当下,学术界和各大图数据库厂商热衷于提升图分析技术的高性能指标。然而,追求…

STM32嵌入式编程学习到提高:【5】delay函数

------------------------------------------------------------------------------------------------------------------------- 工程文件:放在百度云盘里,需要的自行下载!!! 链接:http:// https://pan.baidu.com/s…

【3D分割】Segment Anything in 3D with Radiance Fields

论文链接:Segment Anything in 3D with Radiance Fields 代码链接:GitHub - Jumpat/SegmentAnythingin3D: Segment Anything in 3D with NeRFs (NeurIPS 2023) 作者:Jiazhong Cen, Jiemin Fang, Zanwei Zhou, Chen Yang, Lingxi Xie, Xiaop…