本地大语言模型部署及应用

news2024/9/20 18:36:41

01  模型

2024-07-24,Meta 正式发布新一代开源大模型 Llama 3.1 系列,该模型共有三个版本:

  • 8B
  • 70B
  • 405B

meta评估了超过 150 个语言覆盖范围广的基准数据集。比较了 Llama 3.1 与竞争性模型在真实世界场景下的表现。实验评估表明,Llama 3.1 405B在一系列任务中与领先的基础模型相比具有竞争力,包括 GPT-4、GPT-4o 和 Claude 3.5 Sonnet。来源:Meta(https://ai.meta.com/blog/meta-llama-3-1/)

此外,8B本部和70B版本模型与参数数量相似且封闭或开放的模型相比也具有竞争力。

02  本地安装

1.本地电脑安装的硬件要求

Windows:3060以上显卡+8G以上显存+16G内存,硬盘空间至少20G(也可以在 CPU 上运行时基于内存 (RAM) 速度的模型 ,不过推理速度较慢)

Mac:M1或M2芯片 16G内存,20G以上硬盘空间

在开始之前,首先我们需要安装Ollama客户端,来进行本地部署Llama3.1大模型(Ollama 是一个便于本地部署和运行大型语言模型(Large Language Models, LLMs)的工具。)

官方下载:【https://ollama.com/】

在网站首页选择下载选项,请确保选择与你操作系统相匹配的版本。例如,我选择了适用于 Windows 的版本。如果你使用的是 Mac或 Linux,应选择相应的版本。

安装过程非常简单,基本上按照常规操作进行即可。接着打开CMD安装对应的模型。

安装命令:

安装llama3.1-8b,至少需要8G的显存,安装命令就是

ollama run llama3.1:8b

安装llama3.1-70b,至少需要大约 70-75 GB 显存,适合企业用户,安装命令就是

ollama run llama3.1:70b

安装llama3.1-405b,这是一个极其庞大的模型,安装和运行它在本地需要非常高的显存和硬件资源,至少需要大约 400-450 GB 显存,适合顶级大企业用户,安装命令就是

ollama run llama3.1:405b

以下是可以下载的示例模型:

模型加载完成之后,出现如下提示,就可以直接跟大模型对话了。

03  配置远程访问

Ollama 启动的默认地址为http://127.0.0.1:11434,我们通过设置环境变量 OLLAMA_HOST来修改默认监听地址和端口,这往往对我们需要远程调用API时非常有用。同时,如果要在一些其他工具客户端中调用 API ,需要为 Ollama 进行跨域配置后方可正常使用。

需要了解如下三个变量的用途

windows 修改环境变量如下:

1、首先停止ollama服务。(右下角任务栏退出)

2、设置变量环境:

右键"此电脑 > 属性 > 高级系统设置 > 环境变量 > Administrator 的用户变量 > 新建用户变量"。

3、添加变量

OLLAMA_HOST  为监听地址,设置值为:0.0.0.0或者想要监听的地址

OLLAMA_ORIGINS 为跨域访问,设置值为*

设置完毕环境变量,打开新的 powershell 或者 CMD 命令行终端, 重新启动 ollama 服务并加载模型。

04  API 调用

开启远程连接之后,就可以远程调用 API 了,示例如下:

生成一个回复

curl http://localhost:11434/api/generate -d '{  "model": "llama3.1",  "prompt":"Why is the sky blue?"}'

与模型交谈

curl http://localhost:11434/api/chat -d '{  "model": "llama3.1",  "messages": [    { "role": "user", "content": "why is the sky blue?" }  ]}'

05  其他应用调用

Ollama 提供与OpenAI API 的部分兼容性,以帮助将现有应用程序连接到Ollama。

一切配置好之后就可以用其他一些客户端调用API去使用了

NextChat客户端

配置接口地址为:http://localhost:11434 ,自定义模型名称为:llama3.1,就可以开始使用了。(key可以空着也可以随便填任意内容)

可以正常使用了。类似的客户端还有Chatbox之类的,可以根据自己的喜好,选择使用。

浏览器沉浸式翻译(https://immersivetranslate.com/)

沉浸式翻译插件是一个比较好用的浏览器翻译插件,在日常的上网,工作中经常用到。可以设置自己的大模型来进行翻译服务。

安装好之后进行设置,翻译服务选择:OpenAI,模型自定义为:llama3.1,key可以随意填写。

点击展开更多自定义选项后,设置API地址为:http://localhost:11434/v1/chat/completions

下面就可以愉快的使用本地的翻译服务了。

作者:马云卓

2024年9月1日

洞源实验室

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2100819.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

动态住宅IP代理的搭建指南:实现高效网络访问

在互联网的复杂环境中,动态住宅IP代理逐渐成为提升网络隐私和绕过IP限制的热门选择。相比于数据中心代理IP,动态住宅IP代理具有更高的隐蔽性和真实性,能够有效模拟真实用户的网络行为。本文将详细介绍动态住宅IP代理的搭建方法,帮…

iPhone、微信二选一?苹果、腾讯官方回应

KlipC报道:9月2日,有消息称,腾讯和苹果正在就APPStore的抽成问题在不断交涉,如若谈崩有可能导致微信下架,iPhone一旦升级到 iOS 18.2 系统可能将无法使用微信。 对此,苹果中国区技术顾问表示,“…

Vue 2 与 Vue 3 中 keep-alive 组件的深入解析

更多内容前往个人网站:孔乙己大叔 在 Vue.js 的开发中,keep-alive 是一个非常重要的内置组件,它允许我们将组件状态或实例保持在内存中,避免重新渲染和重新创建组件,这对于需要频繁切换但内容较为复杂的组件场景非常有…

如何在银河麒麟中快速查询网卡固件及驱动信息

如何在银河麒麟中快速查询网卡固件及驱动信息 1、第一步:找到网卡名称2、第二步:查询固件和驱动信息3、总结 💖The Begin💖点点关注,收藏不迷路💖 在银河麒麟服务器操作系统中,如何查询网卡固件…

统一NLP和目标检测的DETR(一)——self attention、encoder、decoder

主流目标检测算法劣势 YOLO系列,它基于anchor来做,少不了要用MNS,导致速度相对较慢。 但今天介绍一款DETR,基于VIT的目标检测算法。 那么我们需要先深入过一遍VIT。 Vision transform 1、传统RNN网络的问题 单向:只…

vue3集成sql语句编辑器

使用的是codemirror 安装 pnpm add codemirror vue-codemirror --savepnpm add codemirror/lang-sqlpnpm add codemirror/theme-one-dark使用 <template><codemirror v-model"configSql" placeholder"Code goes here..." ref"codemirrorR…

热力图科普:数据可视化的利器

hello大家好&#xff0c;俺是没事爱瞎捣鼓又分享欲爆棚的叶同学&#xff01;&#xff01;&#xff01; 日常闲扯 哎呀&#xff0c;第一天上完课&#xff0c;给俺的感觉是&#xff08;热和惊喜&#xff09;&#xff0c;热是真热&#xff0c;从出租屋走到教学楼给我整的汗流浃背…

十七、网络编程

文章目录 一、网络相关的概念二、InetAddresss类三、Socket3.1 基本介绍 四、TCP网络通信编程4.1 应用案例1(使用字节流)4.2 应用案例2(使用字节流)4.3 应用案例3(使用字符流)4.4 应用案例4&#xff08;TCPFileCopy&#xff09;4.5 netstat 指令4.6 TCP网络通讯不为人知的秘密 …

为啥一定要考HCIE安全?这4个理由你不得不看

大家都知道&#xff0c;网络安全越来越成为企业和个人关注的焦点。 随着网络攻击的日益复杂和频繁&#xff0c;对于具备高级网络安全技能的专业人才的需求也在不断增长。HCIE-Security认证&#xff0c;作为华为推出的顶级信息安全认证&#xff0c;正是满足这一需求的黄金标准。…

inflight 守恒化简

设 x 为 E bw / delay 效能&#xff0c;y 为 flow 在瓶颈处的实际分配带宽&#xff0c;r 为时延&#xff0c;inflt 守恒模型的方程组如下&#xff1a; I ( t ) ∑ i 0 n w i ( t ) I(t)\displaystyle\sum_{i0}^n w_i(t) I(t)i0∑n​wi​(t) d x d t y r − x \dfrac{dx}{dt…

论文速读|自然语言的最优控制合成:机遇与挑战

项目地址&#xff1a;Optimal Control Synthesis from Natural Language: Opportunities and Challenges 介绍了一种从自然语言自动生成最优控制器的框架&#xff0c;该框架主要包括以下几个步骤&#xff1a;首先&#xff0c;通过人类用户提供的初始文本和系统描述&#xff0c;…

苹果系统中如何安装Python和PyCharm

1、Python官网下载安装包 Python官网下载苹果版本的安装包。 2、PyCharm官网下载安装包 3、下载完毕后安装Python 我采用的是在Windows下下载安装包&#xff0c;然后移动硬盘挂接到MacOS的方式进行安装。 双击开始安装Python Python安装完毕 4、Python安装完毕后的测定 注意直…

【开源免费】基于SpringBoot+Vue.JS高校校园招聘服务系统(JAVA毕业设计)

本文项目编号 T 010 &#xff0c;文末自助获取源码 \color{red}{T010&#xff0c;文末自助获取源码} T010&#xff0c;文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 查…

Qt QPushButton 按钮添加数字气泡

使用场景 项目中&#xff0c;在某个按钮的右上角添加数字气泡是一个很常见的功能&#xff0c;可以用新建一个组合类来实现。不过这样比较麻烦&#xff0c;如果加气泡是后面的需求&#xff0c;可能改动的地方较多。 下面介绍2种比较简单&#xff0c;不需要改动按钮响应的方式。…

Web3社交新经济,与 SOEX 实现无缝交易的高级安全性

出于充分的理由&#xff0c;安全性是交易中至关重要的考虑因素。每个人都应该确保自己的资金在交易时是安全的。由于 &#xff33;&#xff2f;&#xff25;&#xff38; 充当您与交易所的最佳连接&#xff0c;因此必须强调的是&#xff0c;该系统不会引发任何安全问题。 &a…

央视曝光“硫超标”枸杞,记者直击加工现场:被熏到泪流不止

枸杞&#xff0c;这一自古以来便被誉为“药食同源”的珍贵食材&#xff0c;不仅承载着中华民族深厚的养生智慧&#xff0c;也广泛融入现代人的日常饮食与保健之中。 从食品、饮料到保健品&#xff0c;枸杞的身影无处不在&#xff0c;其独特的营养价值与药用价值深受消费者青睐。…

心电调试笔记

原理图设计 注意事项 引脚连接检查&#xff1a;确保每个元器件与芯片引脚连接正确是基础&#xff0c;错误的连接可能导致系统无法正常工作。未连接引脚标识&#xff1a;对于未使用的引脚&#xff0c;虽然不连接但应标识为非使用状态&#xff0c;以免混淆或引起误操作。测试点设…

【 html+css 绚丽Loading 】 000034 三元聚散盘

前言&#xff1a;哈喽&#xff0c;大家好&#xff0c;今天给大家分享htmlcss 绚丽Loading&#xff01;并提供具体代码帮助大家深入理解&#xff0c;彻底掌握&#xff01;创作不易&#xff0c;如果能帮助到大家或者给大家一些灵感和启发&#xff0c;欢迎收藏关注哦 &#x1f495…

解锁MySQL数据库基础命令:从入门到精通的实战指南

作者简介&#xff1a;我是团团儿&#xff0c;是一名专注于云计算领域的专业创作者&#xff0c;感谢大家的关注 座右铭&#xff1a; 云端筑梦&#xff0c;数据为翼&#xff0c;探索无限可能&#xff0c;引领云计算新纪元 个人主页&#xff1a;团儿.-CSDN博客 前言&#xff1a;…

PLUTO: 推动基于模仿学习的自动驾驶规划的极限

PLUTO: Pushing the Limit of Imitation Learning-based Planning for Autonomous Driving PLUTO: 推动基于模仿学习的自动驾驶规划的极限 https://arxiv.org/abs/2404.14327 Abstract We present PLUTO, a powerful framework that Pushes the Limit of imitation learn…