大模型的当前和未来

news2024/9/23 17:17:07

在这里插入图片描述

自2022年年底ChatGPT打响大模型热潮第一枪,至今已有一年半多的时间,大模型持续受到业界高度关注。大模型当前发展情况如何,未来又将如何演进发展?

大模型入门

1.什么是大模型、超大模型和Foundation Model?

大模型**通常指具有大规模参数、能捕捉和学习更复杂数据模式的模型,在各种任务上表现更为出色,如自然语言理解、图像识别等。超大模型是大模型的一个子集,参数通常达数千亿甚至数万亿。随着模型规模(如参数数量、数据量、计算量)增大,其性能通常会随之提高,能处理更广泛任务,在特定任务上达更高精度,甚至会“涌现”新能力,如常识推理、创作能力等。Foundation Model是一种特定类型的大模型,被设计为能够处理多种类型的任务,而不专门针对某一特定任务,通常具有高度泛化能力。

**2.**如何系统地入门大模型?

第一步是基础知识学习。**通过在网站搜索各类专家的视频课程来学习,如吴恩达、李宏毅等。核心内容包括机器学习、深度学习、自然语言处理等。**第二步是了解大模型技术。**通过视频学习或阅读书籍如《这就是ChatGPT》。学习知识点包括Transformer架构、预训练与微调、多模态大模型等。**第三步是实践操作。**通过多种方式在实际操作中检验学习成果,包括但不限于,研究开源大模型源码,理解其内部运作;通过Hugging Face、阿里云ModelScope等平台,直接调用现有大模型进行应用开发。

**3.**想学习大语言模型(LLM),应该从哪个开源模型开始?

**Llama系列模型是一个非常好的起点,原因有三:**一是生态全面。**Llama系列模型拥有较完善的开源资源、工具和社区等生态支持,遇到问题时更容易找到解决方案、获得实践上的帮助。**二是上手方便。**Llama系列模型提供一个无需GPU的体验版本llama.cpp,可在不具备高性能硬件的条件下开始学习和实践。**三是扩展性强。**Llama系列模型具有普及性,有许多人在其基础上进行扩展和优化,如Flash Attention算法已成为标准组件,为学习者提供现成案例和改进方向。

大模型发展现状总结

**1.**从ChatGPT横空出世到国内外“百模大战”,目前大模型发展情况如何?

**大模型仍处于快速发展和变革时期,呈现四大发展特征。**一是技术快速迭代,迈进原生多模态时代。**2024年5月,OpenAI和谷歌前后脚放出基于自身原生多模态大模型打造的最新模型产品GPT-4o和Project Astro,开启原生多模态大模型新阶段。**二是端侧大模型加速落地,或成未来交互新入口。**AI手机、AI PC、人形机器人、智能座驾等市占率有望快速提升,如IDC预计2024年国内AI手机市场出货量为3700万台、占比13.2%,到2027年将达到1.5亿台、市占率超50%。**三是大模型在各行各业渗透日益加深,展现强大应用潜力。**Gartner预计到2027年, 企业中使用的超过50%的生成式AI模型将是垂直领域模型 (行业或业务功能相关), 2023年只有1%。**四是大模型伦理与安全问题凸显,各国法律法规跟进。**随着大模型广泛应用,其可能带来的伦理、偏见及数据安全问题引起广泛关注,各国政府和监管机构相继出台相关政策法规。

**2.**如何看待国产大模型的现状?
**据天翼智库基于公开资料的不完全统计,当前我国通用大模型87个,行业大模型341个,主要集中在北上广三地。大模型发展热潮背后,我们发现国内通用大模型同质化问题严重,缺乏原创性突破,应用上缺乏独特性;行业大模型多而不精,实际落地和商业化进程缓慢。究其原因,我们认为:**一是原创性算法架构创新不足。**国内AI企业侧重于对现有Transformer架构及其衍生模型进行优化和应用创新,而非追求底层架构根本革新。2019-2023年全球发布的387个重要机器学习模型中,美国机构主导开发的达262个,中国仅68个。**二是高端算力资源紧缺。**一方面,美国对我芯片封锁政策不断升级;另一方面,核心算力芯片国产化进展较慢,高端芯片工艺长期被卡,芯片工艺和性能落后国际先进水平2-3代。**三是高质量中文数据短缺。**一方面,公共数据开放共享水平不足,数据可获得性有待提高;另一方面,各行业数据体量庞大,但标准不一、产业化不足,仍存在数据使用和数据安全之间的平衡问题。

国内曾经也出现过“百团大战”(团购),最终只有2-3家生存下来。我们认为未来国内主导的通用大模型只有3-5家,甚至只有1-2家,现有的大量模型厂商将转型到大模型垂直领域和应用开发领域。

**3.**目前国内大模型处于什么阶段,是否有关键技术壁垒?
目前处于追赶国外先进水平的阶段。**尽管国内在大模型研发上展现出巨大热情,但与国际前沿模型相比仍存在一定差距,如号称整体超越GPT-4 Turbo的讯飞星火大模型V4.0于2024年6月发布,而GPT-4 Turbo则于2023年11月发布,时间领先超半年。**关键的技术挑战集中在大模型的核心算法和基础架构设计上。**目前,大模型主要基于Transformer架构,并采用预测next token作为主要训练策略。为实现直道超车,可以通过增加模型参数、强化多模态和AI Agent产品能力等策略。同时,探索超越参数规模增长的新理论基础,甚至提出非基于连接学派的新策略,可能为大模型带来弯道超车的机遇,从根本上解决高能源消耗和大模型难以具备逻辑思维能力等问题。

**4.**目前国内有哪些开源多模态大模型?
**据天翼智库基于公开资料的不完全统计,当前国内开源多模态大模型至少有28个,发布者主要分为科技企业、科研机构两类,具体包括阿里的Qwen-VL、Qwen-Audio;智谱AI联合清华大学发布的VisualGLM-6B、CogVLM;零一万物的Yi-VL;面壁智能联合清华大学NLP实验室发布的MiniCPM-V 2.0、OmniLMM、VisCPM-Chat、VisCPM-Paint;中国电信的TeleSpeech-ASR;商汤科技的Shikra;字节跳动的BuboGPT;美团的MobileVLM;小红书的InstantID;上海AI lab的VideoChat、MM-Interleaved、LLM InternLM-XComposer-2.5;阿里达摩院的mPLUG-Owl;北京智源人工智能研究院的AltCLIP、AltDiffusion、EVA、Painter、SegGPT、Uni3D、Emu2、EVA-CLIP-18B;IDEA研究院的太乙、Ziya-Visual。

大模型发展深度剖析

**1.**大模型发展中有哪些经验和教训?
:**主要总结四点可供企业、开发者、用户借鉴的经验。**一是提示工程的自动化可能会减少对人类工程师的依赖,并将以新的形态存在。**当前趋势表明,自动生成的提示词(以下简称prompt)在很多情况下表现优于人类工程师设计的prompt。随着技术不断进步,提示工程的自动化或减少对人类工程师的依赖并将以新形态存在,如集成到基础模型或作为大语言模型运营(LLMOps)的一部分,仍然需要人类参与。**二是混合专家模型(以下简称MoE)架构有望超越传统范式实现低成本万亿参数大模型。**MoE架构通过将任务分解为多个子问题,并由不同的专家模型分别处理,展现了其在提高预测性能方面的潜力。**三是随着数据隐私法规的加强和高质量数据的稀缺,数据合成技术在大模型研发流程中的重要性愈发凸显。四是基于SFT的企业大模型微调策略门槛较高,RAG+知识库的方案有望成为主流。**基于SFT(Supervised Fine-Tuning)的企业大模型微调策略虽能快速带来效果,但计算密集且资源消耗大。结合RAG(Retrieval-Augmented Generation)和知识库的方案不仅能提供个性化和领域特定的回答,且相较于SFT可能更易实施和维护,有望成为企业大模型微调的主流策略。

**2.**开源大模型是否比闭源大模型取得更多进展和成就?
从模型性能的角度看,开源大模型进展落后于闭源大模型。**据知名大模型竞技场LMSYS Chatbot Arena Leaderboard于2024年7月8日更新的评测结果显示,Top10均为闭源大模型,Top20中有6个开源大模型;据2024年7月15日查阅的斯坦福团队发布的AlpacaEval Leaderboard显示,Top10中仅有2个开源大模型。**从技术普及发展的角度看,开源大模型的贡献大于闭源大模型。**开源大模型吸引大量开发者和研究人员自由地查看、修改和扩展模型,加速大模型技术创新和应用场景探索,同时开源社区贡献智慧,又推动开源大模型自身发现并修复问题、提升模型质量。

**3.**大模型发展到现在,为什么还没出现爆款级应用?

一是国内C端用户付费意愿普遍偏低,相较国外更难盈利。二是应用场景并非面向用户刚需,难以形成稳固用户基础。**传统爆款级软件往往能解决用户某方面刚需(例如社交 App),而对于大模型核心应用场景“内容生成”而言,大部分使用者只有尝鲜并无硬性需求,影响用户留存率。**三是应用对用户有使用门槛要求,限制了应用的易用性。**模型回复质量取决于用户个人提问技巧,用户能力差异化带来模型使用效果两极化,导致当前大模型应用尚不具备爆款级应用“人人易用”的特性。四是模型幻觉问题依然存在,对使用体验有较大影响。

如今AI技术站在“技术革新到应用繁荣的临界点”上,爆款级应用或许并非难以出现,而是正处于中间“应用准备期”阶段。

**4.**大语言模型无法对数字进行准确运算的底层原因是什么?
一是大模型的工作原理与数学运算的逻辑不一致。**大语言模型基于上下文中词与词之间的关联性获取深层次语义信息,并根据统计概率预测下一个词,更适合较为具象的自然语言理解与生成等任务。数学运算中上下文信息较少,数字含义更抽象,增加大模型理解难度。且大模型基于一定概率生成输出内容,与数学运算需要严格根据运算规则进行准确计算的推理方式不完全匹配。**二是不同的分词方法对大模型的数学运算能力存在一定影响。**不恰当的分词会增加大模型理解多位数的难度,难以建立token向量与数字之间的准确对应关系。此外,随着多位数的位数增加,大模型将相同数位的数字进行对齐的难度也会增加,使大模型在分步计算过程中容易出错。

5.2024年大模型还有哪些可研究的方向?
**总结十个国际主流企业认可的研究方向。**一是模型融合技术。**在不增大模型参数规模的前提下,通过模型融合来提升模型性能和效率,且新模型还没有传统集成方法的典型缺陷,如更高的算力需求。**二是混合专家系统。**通过将多个小型模块组合起来创建MoE,可让所得大模型的效果和效率媲美甚至超越大型模型。**三是训练更小的大模型。**研究如何在保持或提升模型性能的同时,减少模型的大小和计算资源需求。**四是个性化与定制化。**开发能根据特定用户需求进行个性化调整的大模型,以提供更加精准的服务。**五是多模态大模型和多模态融合技术。**继续发展能处理多种类型数据的大模型,以应对复杂的现实世界问题。**六是跨模态交互。**通过不同的技术或方法促进不同模态之间有效交互和预测,包括多模态数据处理与转换技术、跨模态学习等。**七是模型对齐与安全可控。**研究如何使大模型更好地对齐人类偏好,并确保其在使用过程中的安全性和可控性。**八是时序预测与异常检测。**利用大模型在时序预测和异常检测方面的应用潜力,进一步提升其在金融、医疗等领域的实际应用效果。**九是智能体评测。**通过指令遵从和偏好对齐的能力,评估大模型作为智能中枢解决复杂任务的能力。**十是智能体评测交叉学科研究。**将大模型与其他学科如语言学、政治学、社会学和心理学等进行交叉研究,以拓展其应用场景和理论深度。

大模型发展路径展望

**1.**大模型再发展5年,搜索引擎还在吗?

**大模型技术会与搜索引擎产品结合。从发展终局的视角看,结合大模型技术的搜索引擎最终会在用户使用习惯、产品核心定位和企业市场格局三方面有新变化。**一是用户使用边界从“检索”向“问答”拓展。**AI搜索让信息的颗粒度从网页细化到内容本身,在多数情况下将帮助用户省去“逐个链接查看”、“对多个网页源信息进行整合”两个关键步骤,且“提问-回答-追问”的新用户习惯也在快速建立。**二是产品核心定位从“搜索引擎”转向“大模型+搜索的整体问答系统”。**首先,产品底层逻辑更加复杂,AI搜索的智能化水平成为新决定性因素。其次,产品UI界面重点从网页列表转移到内容答案。然后,产品商业模式将变得更加多元,如采用用户付费订阅制、后向整合打造内容生态并开启知识付费等。最后,产品服务形态或从云服务向端云协同转变。**三是未来的搜索市场玩家将是整合大模型技术的传统搜索龙头企业以及AI搜索初创企业的混合市场格局。**全球市场上的前两名将仍然是谷歌、微软,市场三四五名或迎来新一轮洗牌,专业AI搜索初创产品或杀出重围。

**2.**大模型的终局是“通用”还是“专用”?
**通用大模型通过在海量数据上进行大规模预训练学习大量知识,获得面向任务的通用求解能力,契合C端用户的多样化、碎片化需求。专用大模型遵循“大规模预训练+微调”的范式,针对特定任务进行微调以更好地适应实际应用场景需要。专用大模型能力发展源自办公、制造、医疗等场景降本增效、提高准确率等诉求,并最终向B端、G端客户提供适合细分场景的定制化大模型能力。**通用大模型和专用大模型各有优势,未来将趋于并行发展。**通用大模型将继续作为技术基础,推动模型架构创新和应用普及;专用大模型将在特定领域和任务中提供更精准和高效的服务。随着技术不断进步和融合,未来或出现更加灵活、智能的模型架构和训练方法,以实现通用与专用的最佳结合。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2034014.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

『 Linux 』网络基础(二)

文章目录 数据在不同层之间的名称数据的跨网络传输端口号TCP协议与UDP协议网络字节序套接字编程的种类 数据在不同层之间的名称 以TCP/IP模型为例,数据在不同层之间有不同名称; 应用层(Applicant Layer) 数据名称一般为 消息(Message),请求/响应(Request/Response); 在这一层…

图像处理中的一些知识点详解

目录 Sobel算子的详细由来以及scharr算子laplace算子的由来 Sobel算子的详细由来以及scharr算子 具体解释可以参考:这篇知乎的前两个回答,尤其第二个回答。 补充:这里的梯度计算使用的是前向差分和后向差分相结合的中心差分思想(…

看看月薪3W的电商运营,怎么做数据分析!

作为电商运营的你,得学会分析数据才是真正学会运营。其实不是数据分析太难,而是你没有找对方法! 首先,从分析框架方面来看,可以分为【店铺整体、爆款单品、竞品店铺、推广数据、行业大盘】5个维度。从这些维度考虑&am…

【Linux系列】sshpass使用

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

Qt自定义TreeWidget,实现展开折叠按钮在右侧,且一条竖直线上对齐

效果如下&#xff1a; 图片随便找的&#xff0c;可能需要调下样式&#xff0c;代码复制可用&#xff0c;留给有需要的人。 #ifndef CustomTreeWidget_h__ #define CustomTreeWidget_h__#include <QTreeWidget> #include <QPushButton>class CCustomTreeWidget : p…

【CTF | WEB】001、攻防世界WEB题目之backup

文章目录 backup题目描述:解题思路&#xff1a;解题过程&#xff1a; backup 题目描述: X老师忘记删除备份文件&#xff0c;他派小宁同学去把备份文件找出来,一起来帮小宁同学吧&#xff01; 进入题目后显示&#xff1a; 解题思路&#xff1a; 在进行网站安全检查时&#xf…

北大和鹏城实验室联合推出的图像视频统一多模态大模型Chat-UniVi(CVPR 2024)

Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding 论文信息 paper&#xff1a;CVPR 2024 code&#xff1a;https://github.com/PKU-YuanGroup/Chat-UniVi 训练130亿大模型仅3天&#xff0c;北大提出Chat-UniVi…

实战|uniapp模仿微信实现发送位置消息,解决滚动页面地图层级冲突

前言 在即时通讯应用中&#xff0c;虽然发送位置信息不是核心功能&#xff0c;但在特定场景下&#xff0c;这个功能仍然非常有用。 本文将介绍如何在 uniapp 中实现位置信息的发送和展示&#xff0c;特别是在遇到地图层级问题时的解决方案。 以下内容均基于 uniapp 打包 App …

puppeteersharp爬取网页数据

官网 https://github.com/hardkoded/puppeteer-sharp 安装 创建控制台项目&#xff0c;安装PuppeteerSharp 18.1.0 编写代码 安装chrome async static Task Main(string[] args) {//如果Chromium不存在则先下载var browserFetcher new BrowserFetcher();//获取安装的浏览…

redis面试(十三)公平锁排队代码剖析

我们来看一下第二种redis分布式锁 第一种锁是可重入锁&#xff0c;非公平可重入锁&#xff0c;所谓的非公平可重入锁是什么意思呢&#xff1f;胡乱的争抢&#xff0c;根本没有任何公平性和顺序性可言 第二种锁&#xff0c;可重入锁&#xff0c;公平锁 通过公平锁&#xff0c…

haproxy七层代理总结

一、HAProxy概念 1.1 什么是HAProxy&#xff1f; HAProxy是一款开源、高性能的负载均衡器和代理服务器&#xff0c;专为TCP和HTTP应用而设计。它可以将客户端的请求分发到多台后端服务器&#xff0c;从而提高应用的可用性和性能。HAProxy支持多种负载均衡算法和健康检查机制&a…

一篇文章带你学会向量数据库Milvus

一篇文章带你学会向量数据库Milvus 索引管理 Milvus 提供多种索引类型来对字段值进行排序&#xff0c;以实现高效的相似性搜索。它还提供三种度量类型&#xff1a;余弦相似度 (COSINE)、欧几里得距离 (L2) 和内积 &#xff08;IP&#xff09;来测量向量嵌入之间的距离。 建议…

零基础学会机器学习,到底要多久?

这两天啊&#xff0c;有不少朋友和我说&#xff0c;想学机器学习&#xff0c;但是之前没有基础&#xff0c;不知道能不能学得会。 首先说结论&#xff0c;只要坚持&#xff0c;就能学会&#xff0c;但是一定不能三天打鱼两天晒网&#xff0c;要持之以恒&#xff0c;至少每隔两…

小白零基础学数学建模系列-Day4-线性规划基础与案例分析

文章目录 1. 线性规划基础1.1 基本概念1.2 求解方法 2 线性规划经典问题2.1 生产计划问题2. 2 运输问题 案例1&#xff1a;生产计划问题背景模型建立模型求解 案例2&#xff1a;运输问题背景模型建立模型求解 案例3&#xff1a;货机货物装载问题问题背景假设条件问题要求模型建…

【微信小程序】WXSS 模板样式

1. 什么是 WXSS WXSS (WeiXin Style Sheets)是一套样式语言,用于美化 WXML 的组件样式,类似于网页开发中的 CSS。 2. WXSS 和 CSS 的关系 3.rpx (1). 什么是 rpx 尺寸单位 rpx(responsive pixel)是微信小程序独有的,用来解决屏适配的尺寸单位。 (2). rpx 的实现原理 …

哈希表 -四数相加II

454. 四数相加II 方法一&#xff1a;分组哈希表 /*** param {number[]} nums1* param {number[]} nums2* param {number[]} nums3* param {number[]} nums4* return {number}*/ var fourSumCount function(nums1, nums2, nums3, nums4) {const twoSumMap new Map();let coun…

【机器学习之深度学习】深度学习和机器学习的关系以及深度学习的应用场景

引言 深度学习和机器学习是人工智能领域的两个重要分支&#xff0c;它们之间既有联系也有区别 文章目录 引言一、深度学习和机器学习的关系1.1 联系1.2 区别1.2.1 模型复杂度1.2.2 数据需求1.2.3 特征提取1.2.4 训练速度和计算资源 二、深度学习有哪些应用场景2.1 计算机视觉2.…

Unity | AmplifyShaderEditor插件基础(第一集:简单了解ASE和初识)

前言 我本来老老实实的写着我的Shader&#xff0c;群里的小伙伴强烈建议我开始讲ASE&#xff0c;我只能说&#xff0c;我是一个听话的Up。 一、什么是ASE 全称AmplifyShaderEditor&#xff0c;是一个unity插件&#xff0c;存在于unity商城中&#xff0c;售价看他们心情。&am…

deepin V23 前瞻丨深度适配RISC-V架构,打造全面兼容与高性能的开源桌面操作系统

查看原文 中国工程院院士倪光南曾表示&#xff0c;RISC-V架构因其开放性和灵活性&#xff0c;已成为中国CPU领域最受欢迎的选择之一&#xff0c;并有望成为推动新一代信息技术发展的关键驱动力。目前&#xff0c;deepin&#xff08;深度&#xff09;社区已与RISC-V生态系统建立…

ECMAScript6语法:类

在 ES6 中新增了类的概率&#xff0c;多个具有相同属性和方法的对象就可以抽象为类。类和对象的关系如下&#xff1a; &#xff08;1&#xff09;类抽象了对象的公共部分&#xff0c;它泛指某一大类&#xff08;class&#xff09;。 &#xff08;2&#xff09;对象特指通过类…