写在前面
在腾讯股东大会上,CEO马化腾深刻指出,人工智能(AI)并非仅仅是互联网领域十年一遇的机遇,而是一个具有深远影响的、堪比电力发明的工业革命级别的重大机遇。
本文将包括:
1- 行业概览
2- 大模型一览
3- 岗位及薪酬
01
行业概览
随着AI领域的竞争日益激烈,模型的发展方向开始呈现分化趋势,从追求通用性转向专注于特定领域的专业化。
据目前统计,中国已有超过40家企业推出了自己的大型AI模型,例如百度的"文心一言"、阿里巴巴的"通义千问"、科大讯飞的"星火"等,以及即将推出的腾讯"混元"、京东"ChatJD"和华为"盘古"等。
这些模型主要分为两大类:
一类是通用型大模型,它们侧重于基础架构的构建;
另一类是在开源大模型的基础上,针对特定行业应用进行定制的垂类大模型。
从行业发展趋势来看,只有少数具有庞大资金、丰富数据资源和应用场景的巨头企业适合开发通用型大模型,例如百度在搜索领域、腾讯在社交媒体领域、阿里巴巴在电商领域的应用。随着AI生成内容(AIGC)技术的不断进步,拥有特定场景数据积累的公司将开发出更多专注于细分市场的垂直领域模型。
AI大模型的应用路径日益明晰,一般遵循从**“基础大模型”到“行业大模型”,最终实现“终端应用”的流程**。
基础大模型,也就是通用型大模型,通过在大量通用数据上进行预训练,具备强大的泛化能力,类似于AI完成了“通识教育”。这类模型将AI开发带入了规模化的工业时代,尽管在特定场景下的专业度尚需提升。
行业大模型则是在基础大模型的基础上,进一步整合行业数据、知识和专家经验,以提高模型的表现力和可控性。目前,在金融、能源、制造、传媒等多个领域,一些领先企业和科研机构已经开始联合开发行业大模型。
开源还是闭源
在开源模型与闭源模型的竞争中,开源模型以其低成本、快速迭代和技术可私有化部署的优势,对闭源模型构成了挑战。
例如,Meta的开源模型Llama系列在全球范围内受到开发者和爱好者的欢迎,而国内的百度、腾讯、阿里等企业则在持续迭代自己的闭源模型。随着高性能开源大模型的出现,一些垂直行业应用公司开始转向使用开源模型结合矢量数据库的解决方案,以应对特定应用场景的需求。
开源大模型有效解决了闭源大模型在应用中的一些痛点。例如,使用开源模型可以避免从头训练模型所需的高昂成本,同时,开源社区如HuggingFace提供的预训练模型可以让用户快速进行微调和部署。此外,开源模型的快速迭代和私有化部署能力,也帮助企业保护了敏感数据的安全性。
AI+还是+AI
在AI投资领域,"AI+“与”+AI"的争论一直存在。
"+AI"代表了传统企业采用AI技术,由于传统行业众多,落地场景广泛,且体量庞大,因此赋能的新增价值能够产生规模效应。
而**"AI+"则代表了以AI技术为核心的科技企业**,它们在算力、算法、数据等方面具有较高的壁垒和先发优势,在自动驾驶等关键领域有机会占据领先地位。
以Copy.ai为例,这是一款利用AI技术帮助用户快速生成文本内容的工具,它提供了90多种工具和模板,能够根据用户的关键词和语境生成针对性的文本,极大地提高了营销人员的工作效率,帮助他们更有效地传达信息。
大模型还是小模型
“大模型”,即大型语言模型(LLM),以其庞大的参数量、深层神经网络结构和高维特征空间而著称。
这类模型通常拥有数以百亿计甚至上千亿的参数,其训练和部署所需的资源极为庞大,主要表现在以下几个方面:
算力成本:大模型的训练需要强大的计算能力,依赖于大规模的GPU集群或专用AI芯片,这导致硬件投资和运维成本显著增加。
数据需求:大模型的训练依赖于大量的数据集,以挖掘潜在的模式和规律,这就需要高昂的数据收集、清洗和标注成本。
模型复杂性:大模型的设计和构建更为复杂,涉及多层次的神经网络结构和优化算法,增加了研发的技术难度和人力资源投入。
协同开发:大模型项目通常规模庞大,需要多学科交叉、大规模团队协作来完成模型的研发、训练和优化。
与此相对,"小模型"则更为轻量级,具有较少的参数和较低的计算资源需求。它们结构简单,易于部署和进行实时运算,更适合资源受限的环境和应用场景。尽管在特定任务上可能不如大模型表现出色,但小模型的高效和便捷性使其在实际应用中同样重要。
近期,小模型的发布呈现出井喷之势:
7月18日,OpenAI推出了GPT-4o mini,在MMLU基准测试中取得了82.0%的高分。
同日,Apple发布了DCLM 7B,一个真正的开源模型,性能超越了Mistral 7B。
Mistral与Nvidia联合发布了NeMo 12B,性能优于Llama 3 8B和Gemma 2 9B。
7月16日,HuggingFace发布了SmolLM,包含135M、360M和1.7B三种规模的模型,仅使用650B个token进行训练,便超越了Qwen 1.5B和Phi 1.5B。
7月17日,Groq发布了Llama 3 8B和70B工具使用和函数调用模型,在BFCL上实现了90.76%的准确率。
7月19日,Salesforce发布了xLAM 1.35B和7B大型动作模型,在BFCL上的得分分别为88.24%和78.94%。
特别值得一提的是,GPT-4o Mini以其经济实惠著称,其成本比OpenAI之前最轻量级的GPT-3.5 Turbo还要低60%以上。GPT-4o Mini不仅价格低廉,性能同样出色,在MMLU测试中得分高达82%,在LMSYS排行榜上甚至超过了GPT-4。此外,GPT-4o Mini在数学和编码任务、多模态推理任务方面也超越了GPT-3.5 Turbo和其他小型模型,显示出其在性价比和性能上的双重优势。
02
大模型一览
开源与闭源模型:
在2023年初,闭源大模型主要以纯文本的语言模型(LLM)为主。然而,随着时间推移,闭源模型在多模态能力上取得了显著进步,目前能够理解图像并生成图像内容。
相比之下,尽管开源模型在文本处理能力上有了显著提升,但大多数开源模型尚未实现多模态功能。
国内与海外模型:
国内主流大模型在2023年底以来的更新中开始**追赶GPT-4。**例如,
2023年10月更新的**文心4.0(Ernie 4.0)**在综合水平上与GPT-4相比已不逊色。
2024年1月更新的智谱GLM-4,其整体性能已接近GPT-4。
2024年4月更新的商汤日日新5.0在综合性能上宣称全面对标GPT-4 Turbo。
代表模型
GPT-4
GPT-4是OpenAI开发的最新语言模型,它在生成类似人类语言的文本方面表现出色,是GPT-3.5的一次重大升级。
OpenAI指出,GPT-4在以下三个关键领域实现了显著进步:
创造力:GPT-4在创意项目生成和与用户合作方面表现更佳,包括音乐创作、剧本写作、技术写作等,并能学习用户的写作风格。
视觉输入:GPT-4增强了对图像内容的理解能力,能够处理视觉相关的任务。
长文本处理:GPT-4能够处理长达128K个文本令牌的上下文,甚至可以直接与网页链接中的文本进行交互。
尽管GPT-4在多个方面取得了进步,但它仍然存在一些局限性,如社会偏见、幻觉以及对抗性提示等问题。这些问题可能导致模型提供错误的答案或不准确的信息。网上有许多例子展示了GPT-4的这些局限性,表明尽管AI技术不断进步,但仍需持续优化和改进以提高模型的准确性和可靠性。
Claude 3.5
由Anthropic公司于2024年6月20日发布的Claude 3.5 Sonnet是其LLM大语言模型系列中的先遣版本。根据Anthropic公布的测评结果,Claude 3.5 Sonnet在多个标准测试中表现卓越,甚至超越了业界公认的强模型GPT-4o。
以下是Claude 3.5 Sonnet的一些关键特性:
视觉推理:在解释和分析视觉数据方面表现出色,包括理解复杂图表、图形、图解,以及分析信息图和科学可视化。
图文整合:能够无缝整合图像和文本信息,实现全面理解和分析。
对象识别:准确识别和描述图像中的对象。
视觉问答:根据视觉分析,提供详细、准确的回答。
基于图像的问题解决:利用视觉信息协助解决问题,例如分析建筑或工程图。
艺术和设计分析:提供关于艺术风格、设计元素和视觉美学的见解。
手写识别:在识别和转录手写文本方面有出色的表现。
视觉数据提取:从图像中嵌入的表格或图表提取信息。
Claude 3.5 Sonnet的这些特性使其在多模态任务中具有强大的应用潜力,特别是在需要视觉和文本信息整合的场景中。
Llama 3
Llama 3是Meta创建的一个开源LLM,用于生成式AI,包括聊天机器人,能够以自然语言响应各种查询。
以下是Llama 3的一些关键特性和架构:
评估用例:集思广益、创意写作、编码、文档总结以及以特定角色或人物的声音回答问题。
模型架构:采用标准的密集Transformer模型架构,未使用MoE(Mixture of Experts)架构。
细微调整:与之前的Llama模型相比,进行了细微调整以提高训练稳定性。
效率和长序列处理:使用分组查询注意力(Grouped Query Attention)和注意力掩码来提高效率和处理长序列的能力。
模型参数:参数规模从8B到405B不等,支持的上下文窗口可达到128K tokens。
Llama 3的开源特性和灵活性使其在AI社区中具有广泛的应用前景,特别是在需要定制化解决方案的场景中。
03
职业发展
在2024年上半年,人工智能和软件工程领域的人才市场呈现出高度紧缺的状态,特别是在大模型算法、ChatGPT研究、云计算和数字前端工程等岗位上。这种供需不平衡导致了激烈的人才争夺战,其中人才供需比低于0.5,意味着平均有两个岗位在竞争一个合适的候选人。
在薪资方面,人工智能领域的薪资水平一直保持着较高的增长趋势。根据相关报告,2022年人工智能新发岗位的平均月薪为43817元,而到了2023年前8个月,这一数字上涨至46518元,增长率达到6.16%。
对于在国家实验室或国家重点实验室等第一梯队核心实验室工作的博士生,年薪甚至可以达到120万至150万元,这在业界被认为是一个常见的薪酬水平。
国外大模型工资平均薪资水平
研发工程师
软件工程师
根据薪酬网站Levels.fyi的信息,OpenAI的软件工程师年薪总额为92.5万美元。这其中包括30万美元的基本工资和62.5万美元的股权,后者会分4年发放。如果员工能够正常完成服务期,总共可以获得高达250万美元的薪酬。
产品经理
如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓