干货!如何选择Ai大模型(LLMs)?

news2024/12/26 23:26:04

过去一年里,大型语言模型(LLMs)在人工智能界风起云涌,纷纷以突破性的进步拓展生成式人工智能的可能性。新模型层出不穷,令人目不暇接。

这些模型依靠日益增长的参数数量和庞大的数据集进行训练,显著提升了我们生成文本和编写(以及理解)复杂代码的效率。**在选择大模型时,如何权衡输出质量、速度和成本成为了一个重要问题。**答案不仅仅取决于参数规格表或基准测试分数,更在于对每个模型优势的整体理解。

在这篇博文中,我们将分享过去一年中精选的 LLMs 清单,并解答关于大模型选择及应用的一些常见问题。

Llama 3

近期,Meta 重磅发布发布两款开源Llama 3 8B与Llama 3 70B模型,供外部开发者免费使用。Meta表示,Llama 3 8B和Llama 3 70B是目前同体量下,性能最好的开源模型。
**LLaMA 无疑是开源模型的顶流,国内好多大模型都是基于它实现的!**它通过人类反馈的强化学习 (RLHF) 进行了微调。它是一种生成文本模型,可以用作聊天机器人,并且可以适应各种自然语言生成任务,包括编程任务。Meta 已经推出了 LLaMA 3、Llama Chat 和 Code Llama 的开放定制版本。

模型下载链接:https://llama.meta.com/llama-downloads/

GitHub项目地址:https://github.com/meta-llama/llama3

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为什么要使用 Llama 3:

  • 性能:基于 Meta AI 的基准测试,Llama 3 表现出比其他开源模型更好的理解、推理和一般智能能力。

  • 微调:Llama 3 具有三种不同的尺寸,是各种专业应用的理想基础。用户可以对它们进行微调,以满足特定任务或行业的独特需求(在 Hugging Face Model Hub 中有超过 12,000 个搜索结果“Llama2”)。这些微调的模型不仅为开发人员节省了大量时间和资源,而且还有力地证明了 Llama 3 的定制和改进能力。

  • 安全性:Llama 3 的设计重点是生成安全响应,在拒绝不适当的请求方面表现更好,非常适合企业和面向公众的应用程序。在 Meta 的评估中,具有 7B、13B 和 70B 参数的 Llama 3 模型表现出的安全违规百分比(3% 和 4%),超过了 Falcon 和 ChatGPT (7%)。

挑战:

  • 编码能力:Llama 3 的编码任务能力不如一些专门的模型,比如 Code Llama,尤其是对于复杂的编程任务。

  • 预防机制:如上所述,出于安全考虑,Llama 3 可能比其他模型更保守,这种对内容生成的立场有时可能过于限制,限制了动态交互。

  • 多语言限制:Llama 3 主要使用英语数据进行训练,在处理非英语语言任务方面的能力有限,这可能会影响其在多语言环境中的使用。

Mistral 8x7B

Mistral AI 于 2023 年 12 月发布的 Mixtral 8x7B 使用稀疏的专家混合架构。简单地说,它使用许多小型网络,每个网络都专注于不同的事情。这些“专家”中只有少数人负责每项任务,使流程高效,而无需每次都使用整个模型的功率,从而控制成本和延迟。

Mixtral 8x7B 根据 Apache 2.0 许可获得商业用途许可,在各种文本生成任务(包括代码生成)中表现出卓越的多功能性,并具有针对聊天应用程序进行优化的微调变体 Mixtral 8x7B Instruct。

为什么要使用 Mixtral 8x7B:

  • 最先进的性能:Mixtral 8x7B 在许多基准测试中都优于 Llama 3 70B 和 GPT-3.5 等领先型号。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

链接:https://mistral.ai/news/mixtral-of-experts/

  • 长上下文窗口:Mixtral 8x7B 的 32k 令牌上下文窗口显著增强了其处理冗长对话和复杂文档的能力。这使得该模型能够处理各种任务,从详细的内容创建到复杂的检索增强生成,使其在研究和商业应用中具有高度的通用性。

  • 针对效率进行了优化:尽管参数数量较大,但它提供了经济高效的推理,可与小得多的模型相媲美。

多种语言支持:Mixtral 8x7B 可处理多种语言(法语、德语、西班牙语、意大利语和英语),非常适合全球应用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:https://mistral.ai/news/mixtral-of-experts/

Mixtral 8x7B 的挑战:

  • 缺乏内置的审核机制:如果没有本机审核,可能会有生成不适当或有害内容的风险,尤其是当模型被提示敏感或有争议的输入时。旨在在内容控制和安全很重要的环境中部署此模型的企业应谨慎对待这一点。

  • 硬件要求:整个参数集需要大量的RAM才能运行,这可能会限制其在低端系统上的使用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Zephyr 7B

Zephyr 7B建立在Mistral 7B的基础上,经过微调,可以更好地与人类的意图保持一致,在特定任务和基准测试中优于同类产品。在发布时,Zephyr-7B-β 是 MT-Bench 和 AlpacaEval 基准测试中排名最高的 7B 聊天模型。

Zephyr 7B的训练包括通过接触大量的语言模式和上下文来完善其能力。这个过程使它能够理解复杂的查询并生成连贯的、与上下文相关的文本,使其成为内容创建、客户支持等的多功能工具。

为什么要使用Zephyr 7B:

  • 效率和性能:尽管与 GPT-3.5 或 Llama-2-70B 等巨头相比,Zephyr 7B 的尺寸较小,但可提供可比或卓越的性能,尤其是在需要深入了解人类意图的任务中。

  • 多语言能力:Zephyr 7B 在多样化的数据集中进行训练,支持多种语言的文本生成和理解,包括但不限于英语、西班牙语、法语、德语、意大利语、葡萄牙语、荷兰语、俄语、中文、日语和韩语。

  • 任务灵活性:Zephyr 7B擅长执行广泛的语言相关任务,从文本生成和摘要到翻译和情感分析。这使它成为众多应用中高度适应性的工具。

Zephyr 7B的挑战:

  • 意图一致性:虽然Zephyr 7B在与人类意图保持一致方面取得了一些进展,但可能需要持续评估和调整,以确保其输出满足特定的用户需求或道德准则。

  • 适应专业任务:根据应用的不同,可能需要额外的微调来优化Zephyr 7B在专业任务(如推理、数学和编码)中的性能。

SOLAR 10.7B

SOLAR 10.7B 是一个具有 107 亿个参数的大型语言模型,使用一种称为深度升频 (DUS) 的升频技术。这简化了扩展过程,无需复杂的训练或推理调整。

SOLAR 10.7B 经历了两个微调阶段:指令调谐和对准调谐。指令调整增强了其遵循 QA 格式指令的能力。对齐调整进一步完善了模型,以更紧密地与人类偏好或强大的 AI 输出保持一致,同时利用开源数据集和以数学为重点的合成对齐数据集。

为什么要使用SOLAR 10.7B:

  • 多功能性:SOLAR 10.7B-Instruct 等微调型号提供增强的指令跟踪功能,使该模型能够用于广泛的应用。

  • 卓越的 NLP 性能:SOLAR 10.7B 在 NLP 任务中表现出卓越的性能,优于 Llama 3 和 Mistral 7B 等其他预训练模型。

  • 微调:SOLAR 10.7B 是微调的理想型号,具有坚实的基线功能。

SOLAR 10.7B面临的挑战:

  • 资源要求:模型可能需要大量计算资源进行训练和微调。

  • 偏见问题:模型的输出可能并不总是符合道德或合理使用原则。

Code Llama

Code Llama 在 Llama 3 上进行了微调,是一款专门针对编码任务进行微调的高级LLM软件。它旨在理解和生成多种流行编程语言的代码,包括 Python、C++、Java、PHP、Typescript (Javascript)、C# 和 Bash,使其成为开发人员的理想工具。

该模型有四种尺寸(7B、13B、34B 和 70B 参数),以适应各种用例,从低延迟应用程序(如 7B 和 13B 型号的实时代码完成)到 34B 和 70B 型号提供的更全面的代码帮助。

为什么要使用 Code Llama:

  • 大型输入上下文:Code Llama 可以处理多达 100,000 个令牌的输入,从而更好地理解和操作大型代码库。

  • 多样化的应用程序:它专为一系列应用程序而设计,例如代码生成、代码完成、调试,甚至讨论代码,以满足软件开发生命周期中的不同需求。

  • 性能:通过在广泛的数据集上训练的模型(70B 模型最多 1 万亿个令牌),Code Llama 可以提供更准确且与上下文相关的代码建议。Code Llama - Instruct 70B 模型在 HumanEval 测试中甚至获得了 67.8 分,高于 GPT 4 (67.0)。

Code Llama 的挑战:

  • 硬件要求:较大的模型(34B 和 70B)可能需要大量计算资源才能获得最佳性能,这可能会限制硬件有限的个人或组织的访问。

  • 潜在的错位:虽然它已经过微调以提高安全性并符合人类意图,但如果监督不当,总是存在生成不适当或恶意代码的风险。

  • 不适用于一般的自然语言任务:Code Llama 针对编码任务进行了优化,不建议用于更广泛的自然语言处理应用程序。请注意,只有 Code Llama Instruct 经过专门微调,以更好地响应自然语言提示。

为什么我应该选择开源模型而不是商业模型?

这篇博文中列出的所有语言模型都是开源的,所以我相信这是第一个要回答的问题。事实上,开源模式和商业模式之间的选择往往取决于特定的需求和考虑,但前者在以下几个方面可能是更好的选择:

  • 高可控性:开源模型提供高度的控制,因为用户可以根据需要访问和微调模型。这允许定制和适应特定任务或要求,而这在商业模式中可能无法实现。

  • 数据安全:开源模型可以在本地运行,也可以在私有云基础设施中运行,使用户能够更好地控制数据安全。对于商业模式,可能会担心数据隐私,因为数据通常需要发送到提供商的服务器进行处理。

  • 成本效益:利用开源模型可能更具成本效益,尤其是在考虑商业产品所需的 API 调用或令牌的成本时。开源模型可以在没有这些经常性成本的情况下部署,尽管可能需要在基础设施和维护方面进行投资。

  • 社区和协作:开源模型受益于社区的集体专业知识,从而在协作开发推动下实现快速改进、错误修复和新功能。

  • 无供应商锁定:依靠开源模型消除了对特定供应商路线图、定价变化或服务可用性的依赖。

专用LLMs模型与通用模型相比如何?

像 Code Llama 这样的专业LLMs公司在其专业领域提供集中的绩效提升。它们旨在在特定任务中表现出色,为这些特定应用程序提供更准确、更相关和更有用的输出。

相比之下,像 Llama 3 这样的通用模型是为了处理各种任务而构建的。虽然它们可能与专用模型的任务特定精度不匹配,但它们广泛的知识库和适应性使它们成为各种应用的有用工具。

专业和通用之间的选择LLMs取决于任务的具体要求。对于精度更重要的高风险或利基任务,专用模型更可取,而通用模型则提供更好的灵活性和广泛的实用性。

LLMs大规模部署时有哪些道德考虑因素?

道德部署LLMs需要仔细检查偏见、透明度、问责制和滥用的可能性等问题。确保LLMs其训练数据中不存在的现有偏见是一项重大挑战,需要持续保持警惕并改进训练方法。关于如何LLMs做出决策以及他们接受培训的数据的透明度对于建立信任和问责制至关重要,尤其是在高风险应用程序中。

LLMs在生产环境中部署时应考虑什么?

在生产环境中部署LLMs可能是一个微妙的过程。以下是一些需要考虑的策略:

  1. 选择正确的模型大小:平衡模型大小与应用程序的延迟和吞吐量要求至关重要。较小的模型可以提供更快的响应并降低计算成本,而较大的模型可以提供更准确和细致的输出。

  2. 基础结构注意事项:确保基础结构可以处理计算负载。使用支持 GPU 的云服务或使用量化和修剪技术优化模型有助于管理资源需求。对于没有基础架构专业知识的团队来说,具有自动缩放功能的无服务器平台可能是一个不错的选择。

  3. 规划可伸缩性:部署策略应允许根据需要纵向扩展或缩减。使用 Docker 等技术进行容器化和 Kubernetes 编排可以支持可扩展的部署。

  4. 构建强大的日志记录和可观测性:实施全面的日志记录和可观测性工具将有助于监控系统的运行状况,并在出现问题时快速诊断问题。

  5. 使用 API 实现模块化:API 可以抽象化模型托管、扩展和管理的复杂性。它们还可以促进与现有系统的集成,并允许更轻松的更新和维护。

  6. 考虑模型服务框架:BentoML、TensorFlow Serving、TorchServe 或 ONNX Runtime 等框架可以简化部署、提供版本控制并处理请求批处理以提高效率。

最后的思考

当我们在不断扩大的大型语言模型领域中航行时,很明显,它们的潜力才刚刚开始被挖掘。这一领域的快速创新预示着人工智能可以为我们的工作和创造性努力做出更深远的贡献。

展望未来,我认为继续在开源社区中推广 AI 模型、推动造福所有人的进步并确保负责任地使用这些强大工具至关重要。当我们这样做时,希望我们能找到适当的平衡点,在降低风险的同时最大限度地LLMs为社会带来利益。

如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1984762.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CentOS版本的Linux系统误删了自带的python和yum,恢复过程

文章借鉴于:Centos误删自带python2.7恢复方法_centos默认的被卸载了-CSDN博客 在进行别的操作的时候,一不小心将我的系统自带的Python2.7.5和yum删除掉了。 后来我尝试重新安装yum,但是安装yum必须要有python。 我又去重新安装了python&am…

前端面试:项目细节重难点问题分享(16)

💁💁更多详情:爱米的前端小笔记(csdn~xitujuejin~zhiHu~Baidu~小红shu)同步更新,等你来看!都是利用下班时间整理的,整理不易,大家多多👍💛➕&…

数据库|SQLServer数据库:数据的基本查询

哈喽,你好啊,我是雷工! 其实对于数据库的查询以前也应用过,只是使用时一般也是根据要实现的要求从网上搜索,能实现应用要求即可,现在根据视频学习,正好有这么一节,就听一遍&#xff…

ROS 2 话题:使用C++进行发布与订阅

ROS 2 话题:使用C进行发布与订阅 ROS 2提供了一种强大而灵活的通信机制,称为话题(Topics)。话题允许节点之间进行异步消息传递,从而实现松耦合的通信模式。在本文中,我们将介绍如何使用C编程语言在ROS 2中…

常见中间件漏洞大全及其修复方法(未完成)

一.Tomcat tomcat 是一个开源而且免费的 jsp 服务器,默认端口 : 8080 ,属于轻量级应用服务器。它可以实现 JavaWeb程序的装载,是配置 JSP ( Java Server Page )和 JAVA 系统必备的一款环境。 1.1 CVE-2017-12615 Tomc…

Transformers 中的Softmax 和 Layer Norm 如何并行?

1.Softmax 如何并行? Softmax 计算公式: 安全的 Softmax 运算: softmax 有个问题,那就是很容易溢出。比如采用半精度,由于float16的最大值为65504,所以只要x>11,那么softmax就溢出了。即使是…

C语言新手小白详细教程(6)函数

希望文章能够给到初学的你一些启发~ 如果觉得文章对你有帮助的话,点赞 关注 收藏支持一下笔者吧~ 阅读指南: 开篇说明为什么要使用函数?1.定义一个函数2.调用函数3.定义函数详解 开篇说明 截止目前,我们已…

华清IOday7 24-8-5

文章目录 使用有名管道实现,一个进程用于给另一个进程发消息,另一个进程收到消息后,展示到终端上,并且将消息保存到文件上一份使用有名管道实现两个进程间相互通信 使用有名管道实现,一个进程用于给另一个进程发消息&a…

服务器数据恢复—raid5阵列上层Oracle数据库数据恢复案例

服务器数据恢复环境&故障: 一台服务器上有8块SAS硬盘,其中的7块硬盘组建了一组RAID5阵列,另外1块硬盘作为热备盘使用。划分了6个LUN,服务器上部署有oracle数据库。 RAID5磁盘阵列中有2块硬盘出现故障并离线,RAID5阵…

浮点数在计算机中的编码方式

一、前言 我们常能听到,直接用浮点数做运算得出的结果是不准确的了;或者也能看到涉及到浮点数时,会出现一些奇奇怪怪的问题,比如: public class DecimalTest {public static void main(String[] args) {float f1 1.…

STK12.2+Python开发(二):添加访问约束,新建场景、卫星、地面站等,获取当前场景的信息

新建场景 1.获取当前打开的场景 #获取当前打开的场景 scenario root.CurrentScenario2.设置当前场景的时间 scenario.SetTimePeriod(Today,24hr)3.添加一个地面目标到当前的场景 scenario.SetTimePeriod(Today,24hr)4.添加一个地面目标到当前的场景,括号内是三…

空气质量传感器 - 从零开始认识各种传感器【二十八期】

空气质量传感器|从零开始认识各种传感器 1、什么是空气质量传感器? 空气质量传感器是一种检测空气中污染物浓度的设备,广泛应用于环境监测、智能家居、工业控制和健康管理等领域。 2、空气质量传感器是如何工作的? 对于每个人都关心的空气质…

效率何止10倍!利用输入法瞬间调用提示词

我们在日常工作/学习/生活有很多场景需要使用提示词,比如说: 快速总结文章快速排版解释概念翻译其它经常面对的任务 但是使用提示词有几个痛点: 你很难临时写一个非常完整的提示词你凑合写的提示词,又担心结果不满意如果已经保…

前端使用css动画绘制简易的进度条,数据多条的时候可以切换

文章目录 一、效果图二、使用步骤1.公共的进度条组件2.使用 总结 一、效果图 二、使用步骤 1.公共的进度条组件 我这里命名的progressBar.vue&#xff0c; 你们使用的时候直接复制粘贴到自己的项目里面即可。 文件中代码如下&#xff08;示例&#xff09;&#xff1a; <t…

EasyX 碰撞检测

代码&#xff1a; #define _UNICODE #define UNICODE#include <array> #include <cmath> #include <ctime> #include <format> #include <graphics.h> #include <vector>typedef struct tagRECTF {double left;double top;double right;d…

You Only Look Once:Unified, Real-Time Object Detection 论文阅读

论文名&#xff1a;You Only Look Once:Unified, Real-Time Object Detection 论文作者&#xff1a;Joseph Redmon et.al. 期刊/会议名&#xff1a;CVPR 2016 发表时间&#xff1a;2016-5 ​论文地址&#xff1a;https://arxiv.org/pdf/1506.02640 1.摘要 我们提出了一种新的目…

论文辅导 | 结合变种残差模型和 Transformer 的城市公路短时交通流预测

辅导文章 模型描述 城市公路交通流的预测受到历史交通流量和相邻车道交通流量的影响&#xff0c;蕴含了复杂的时空特征。针对传统交通流预测模型卷积长短时记忆网络(ConvLSTM)进行交通流预测时&#xff0c;未将时空特征分开提取而造成的提取不充分、特征信息混淆和特征信息缺失…

视频融合技术

三维视频融合技术遵循数字孪生多源数据融合的原则&#xff0c;比视频窗口、矩阵更加直观高效&#xff0c;省去了人脑理解空间的时间&#xff0c;可有效提升数字孪生城市在物联感知操作、虚实融合交互等方面的能力&#xff0c;动静一体、虚实结合&#xff0c;让三维场景“动起来…

常见的SQL注入

联合查询 如下&#xff0c;要求我们传入一个id值过去。传参?id1&#xff0c;当我们输入id1和id2时&#xff0c;页面中name值和password的值会发生变化&#xff0c;说明此时我们输入的数据和数据库有交互并且将数据显示在屏幕上了 输入?id1&#xff0c;页面发生报错&#xf…

手机联网如何设置动态ip

在现代社会&#xff0c;手机已成为我们日常生活中不可或缺的一部分&#xff0c;无论是工作、学习还是娱乐&#xff0c;都离不开网络的支持。而在手机联网的过程中&#xff0c;IP地址的分配方式显得尤为重要。动态IP地址因其灵活性和安全性&#xff0c;成为了许多用户的首选。那…