本地离线模型搭建指南-中文大语言模型底座选择依据

news2025/1/11 14:57:25

搭建一个本地中文大语言模型(LLM)涉及多个关键步骤,从选择模型底座,到运行机器和框架,再到具体的架构实现和训练方式。以下是一个详细的指南,帮助你从零开始构建和运行一个中文大语言模型。

本地离线模型搭建指南将按照以下四个部分展开

  1. 中文大语言模型底座选择依据
  2. 本地运行显卡选择
  3. RAG架构实现
  4. LLaMA-Factory训练框架及工具

1 中文大语言模型底座选择依据

在选择中文大语言模型(LLM)的底座时,可以参考以下几个关键因素:

1.1 模型规模与参数

根据具体应用场景选择不同规模的模型。比如:

  • ChatGLM系列:包含6B参数的模型,适合中小规模应用,且支持商业用途。
  • LLaMA系列:提供7B、8B、13B、33B和70B等多种规模,部分版本可商用。
  • Baichuan系列:提供7B和13B参数的模型,适合需要较大规模的应用。
  • Qwen系列:提供7B、14B、72B和110B参数的模型,支持较长的上下文长度,适合复杂场景。
  • BLOOM:从1B到176B-MT,多种规模选择。
  • Aquila系列:包括7B和34B参数版本。
  • InternLM系列:从7B到20B参数,支持代码应用。
  • Mixtral、Yi、DeepSeek、XVERSE等:提供多种参数规模,适合不同应用需求。

在这里插入图片描述

常见底座模型细节概览:

底座包含模型模型参数大小训练token数训练最大长度是否可商用
ChatGLMChatGLM/2/3 Base&Chat6B1T/1.42K/32K可商用
LLaMALLaMA/2/3 Base&Chat7B/8B/13B/33B/70B1T/2T2k/4k部分可商用
BaichuanBaichuan/2 Base&Chat7B/13B1.2T/1.4T4k可商用
QwenQwen/1.5 Base&Chat7B/14B/72B/110B2.2T/3T8k/32k可商用
BLOOMBLOOM1B/7B/176B-MT1.5T2k可商用
AquilaAquila/2 Base/Chat7B/34B-2k可商用
InternLMInternLM/2 Base/Chat/Code7B/20B-200k可商用
MixtralBase&Chat8x7B-32k可商用
YiBase&Chat6B/9B/34B3T200k可商用
DeepSeekBase&Chat1.3B/7B/33B/67B-4k可商用
XVERSEBase&Chat7B/13B/65B/A4.2B2.6T/3.2T8k/16k/256k可商用

1.2 训练数据与Token数

不同模型经过不同规模的数据训练,影响其在特定任务上的表现:

  • ChatGLM:经过1到1.4T的中英文标识符训练,适合中文问答和对话。
  • LLaMA:经过1T到2T的训练。
  • Baichuan:训练数据在1.2T到1.4T之间。
  • Qwen:训练数据量高达2.2T到3T,支持复杂任务。
  • BLOOM:经过1.5T的训练。
  • XVERSE:训练数据量达2.6T到3.2T。

1.3 上下文长度支持

根据应用需求选择支持较长上下文长度的模型:

  • ChatGLM2-6B:上下文长度扩展到32K。
  • Qwen:支持8K到32K的上下文长度。
  • Mixtral、Yi、DeepSeek:支持200k到256k的上下文长度。

1.4 商业用途许可

确保所选模型允许商业用途:

  • ChatGLM、LLaMA、Baichuan、Qwen、BLOOM、Aquila、InternLM、Mixtral、Yi、DeepSeek、XVERSE等模型均允许商业用途。

1.5 垂直领域微调与应用

考虑模型在特定领域的微调效果:

  • 医疗、法律、金融、教育、科技、电商、网络安全、农业等领域的垂直应用。

1.6 具体模型推荐

以下是一些具体的模型推荐及其特点:

  • ChatGLM系列:适合中文问答和对话,经过中英文双语训练,支持商业用途。
  • LLaMA系列:提供多种规模,部分版本适合商用。
  • Baichuan系列:适合需要较大规模训练的应用。
  • Qwen系列:支持复杂任务和长上下文长度。
  • InternLM系列:适合代码相关应用。

更多详细信息和具体模型的链接,请访问 Awesome-Chinese-LLM 项目。

下一篇介绍
本地离线模型搭建指南-本地运行显卡选择

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1854590.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

spdlog生产者消费者模式

spdlog生产者消费者模式 spdlog提供了异步模式,显示的创建async_logger, 配合环形队列实现的消息队列和线程池实现了异步模式。异步logger提交日志信息和自身指针, 任务线程从消息队列中取出消息后执行对应的sink和flush动作。 1. 环形队列 1.1 环形队…

独角兽品牌獭崎酱酒:高性价比的酱香之选

在酱香型白酒领域中,獭崎酱酒以其独特的品牌定位和高性价比迅速崛起,成为市场上备受关注的独角兽品牌。作为贵州茅台镇的一款新秀酱香酒,獭崎酱酒不仅传承了百年酿造工艺,还以创新的商业模式和亲民的价格赢得了广大消费者的青睐。…

双指针算法——部分OJ题详解

目录 关于双指针算法: 1,对撞指针 2,快慢指针 部分OJ题详解 283.移动零 1089.复写零 202.快乐数 11.盛水最多的容器 611.有效三角形的个数 剑指offer 57.和为s的两个数字 15.三数之和 18.四数之和 关于双指针算法: …

硬盘数据恢复软件,推荐5种适合你的方法来恢复硬盘数据

硬盘数据恢复软件,作为解决数据丢失问题的关键工具,帮助用户在重要文件丢失时迅速找回数据。本教程介绍5种恢复实用硬盘数据方法,适应不同类型和严重程度的数据损坏情况。 文章摘要: 一. 硬盘数据恢复软件 二. 数据恢复原理 三. …

ThinkPHP:查询数据库数据之后,更改查询数据的字段名称

一、原始查询数据 含有字段item_no,lot_num,position $data[brushed] db::table(wip_station_transaction) ->where([wip_entity_name>$wip_entity_name,line_code>$line_code,]) ->field([item_no, lot_num, position]) ->select(); …

React18中各种Hooks用法总结( 内附案例讲解)

React中各种Hooks用法总结 内附案例讲解 一、useState useState 是一个 React Hook,它允许你向组件添加一个 状态变量。 import React, { FC, memo, useState } from react import { MainContainer } from ./style interface IProps {children?: React.ReactNo…

上新:NFTScan 正式上线 Bitcoin-brc20 浏览器!

近日,NFTScan 团队正式对外发布了 Bitcoin-brc20 浏览器,将为 Bitcoin 生态的 NFT 开发者和用户提供简洁高效的 NFT 数据搜索查询服务。作为比特币生态中最火热的标准之一,brc20 也吸引着广泛的关注。洞悉其巨大潜力,NFTScan 对 b…

基于springboot websocket和okhttp实现消息中转

1、业务介绍 消息源服务的消息不能直接推给用户侧,用户与中间服务建立websocket连接,中间服务再与源服务建立websocket连接,源服务的消息推给中间服务,中间服务再将消息推送给用户。流程如下图: 此例中我们定义中间服…

Linux应急响应——知攻善防应急靶场-Linux(1)

文章目录 查看history历史指令查看开机自启动项异常连接和端口异常进程定时任务异常服务日志分析账户排查总结 靶场出处是知攻善防 Linux应急响应靶机 1 前景需要: 小王急匆匆地找到小张,小王说"李哥,我dev服务器被黑了",快救救我&…

【React】ref

概述 使用 ref 引用值 – React 中文文档 希望组件“记住”某些信息,但又不想让这些信息更新时 触发新的渲染 时,可以使用 ref 。 也就是说 ref 对象 包裹的值 React 追踪不到的,他像是用来存储组件信息的秘密“口袋”。 与 state 相同的是…

一、系统学习微服务遇到的问题集合

1、启动了nacos服务&#xff0c;没有在注册列表 应该是版本问题 Alibaba-nacos版本 nacos-文档 Spring Cloud Alibaba-中文 Spring-Cloud-Alibaba-英文 Spring-Cloud-Gateway 写的很好的一篇文章 在Spring initial上面配置 start.aliyun.com 重新下载 < 2、 No Feign…

美团携手HarmonyOS SDK,开启便捷生活新篇章

华为开发者大会&#xff08;HDC 2024&#xff09;于6月21日在东莞松山湖拉开序幕&#xff0c;通过一系列精彩纷呈的主题演讲、峰会、专题论坛和互动体验&#xff0c;为开发者们带来了一场知识与技术的盛宴。6月23日&#xff0c;《HarmonyOS开放能力&#xff0c;使能应用原生易用…

上位机图像处理和嵌入式模块部署(mcu和swd接口)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 最近学习mcu的时候&#xff0c;接触了不少调试器&#xff0c;这里面有daplink、st-link v2、j-link v9。虽然模块的形状可能不太一样&#xff0c;但…

程序人生:关于RHCE红帽认证这件事

花了两个月备考红帽&#xff0c;最终终于双满分通过。 关于考试 RHCE红帽认证总共需要考两门&#xff1a;RHCSA、RHCE。 RHCSA主要是考察基本的Linux操作&#xff1a;用户、权限、空间扩容、yum、容器等内容。 RHCE主要是考察ansible playbook 代码的开发。 通过考试没有别…

【web1】标签,css,js

文章目录 1.标签&#xff1a;input1.1 html&#xff1a;HTML&#xff08;用于创建网页结构&#xff09;&#xff0c;CSS&#xff08;对页面进行美化&#xff09;&#xff0c;JavaScript&#xff08;用于与用户交互&#xff09;1.2 文本标签&#xff1a;字体属性1.3 a标签&#…

DIVE INTO DEEP LEARNING 50-55

文章目录 50. semantic segmentation50.1 Basic concepts50.2 Major application 51. Transposed convolution51.1 Basic concepts51.2 Major role51.3 Implementation steps and application areas51.4 Transposed convolution51.5 Transposed convolution is a type of convo…

卧槽,6。套死你猴子,Tomcat访问html页面显示源码?

卧槽&#xff0c;6。Tomcat访问html页面显示源码&#xff1f; 元凶text/explain //踩坑&#xff01;&#xff01;&#xff01;不能用 servletResponse.setContentType("text/explain&#xff0c;否则访问html会看到源码&#xff0c;而不是渲染页面; charsetUTF-8"…

IDEA各种实体类运行爆红,不运行就没事

1.问题描述 如图所示&#xff0c;后端项目的import的各种entity爆红&#xff0c;点击也有导入包的提示&#xff0c;且这种报红几乎遍布了整个工程项目 2.我的解决方案 清空缓存&#xff0c;然后把target文件删掉&#xff0c;重新跑 3.小结 idea项目有时候就是一个核弹&…

【科普】半导体制造过程的步骤、技术、流程

在这篇文章中&#xff0c;我们将学习基本的半导体制造过程。为了将晶圆转化为半导体芯片&#xff0c;它需要经历一系列复杂的制造过程&#xff0c;包括氧化、光刻、刻蚀、沉积、离子注入、金属布线、电气检测和封装等。 基本的半导体制造过程 1.晶圆&#xff08;Wafer&#xf…

免费一年SSL证书申请——建议收藏

免费一年SSL证书申请——建议收藏 获取免费一年期SSL证书其实挺简单的 准备你的网站&#xff1a; 确保你的网站已经有了域名&#xff0c;而且这个域名已经指向你的服务器。还要检查你的服务器支持HTTPS&#xff0c;也就是443端口要打开&#xff0c;这是HTTPS默认用的。 验证域…