Atlas 800I A2 双机直连部署DeepSeek-R1-w8a8

news2025/3/29 7:45:58

一、环境信息

1.1、硬件信息

Atlas 800I A2 * 2

1.2、环境信息

操作系统:openEuler 22.03 LTS
NPU驱动:Ascend-hdk-910b-npu-driver 24.1.0 linux-aarch64.run
NPU固件:Ascend-hdk-910b-npu-firware 7.5.0.3.220.run
MindIE镜像:2.0.T3-800I-A2-py311-openeuler24.03-lts

1.3、组网信息

  • 一台服务器的NPU-0口对应另一个服务器的NPU-0,然后剩下的依次使用光纤连接;
  • NPU侧IP最好在同一个网段里。

二、安装驱动固件

2.1、创建运行用户和所属组

groupadd HwHiAiUser
useradd -g HwHiAiUser -d /home/HwHiAiUser -m HwHiAiUser -s /bin/bash

2.2、安装驱动(根据提示选择是否重启)

./Ascend-hdk-910b-npu-driver_24.1.0_linux-aarch64.run --full --install-for-all

2.3、安装固件(根据提示选择是否重启)

./Ascend-hdk-910b-npu-firmware_7.5.0.3.220.run --full

三、配置参数面(NPU)网络

3.1、配置IP和掩码

# 配置master节点上NPU的IP和掩码
hccn_tool -i 0 -ip -s address 修改成自己规划的IP netmask 255.255.255.0 
hccn_tool -i 1 -ip -s address 修改成自己规划的IP netmask 255.255.255.0 
hccn_tool -i 2 -ip -s address 修改成自己规划的IP netmask 255.255.255.0 
hccn_tool -i 3 -ip -s address 修改成自己规划的IP netmask 255.255.255.0 
hccn_tool -i 4 -ip -s address 修改成自己规划的IP netmask 255.255.255.0 
hccn_tool -i 5 -ip -s address 修改成自己规划的IP netmask 255.255.255.0 
hccn_tool -i 6 -ip -s address 修改成自己规划的IP netmask 255.255.255.0 
hccn_tool -i 7 -ip -s address 修改成自己规划的IP netmask 255.255.255.0

# 配置node节点上的NPU的IP和掩码
hccn_tool -i 0 -ip -s address 修改成自己规划的IP netmask 255.255.255.0 
hccn_tool -i 1 -ip -s address 修改成自己规划的IP netmask 255.255.255.0 
hccn_tool -i 2 -ip -s address 修改成自己规划的IP netmask 255.255.255.0 
hccn_tool -i 3 -ip -s address 修改成自己规划的IP netmask 255.255.255.0 
hccn_tool -i 4 -ip -s address 修改成自己规划的IP netmask 255.255.255.0 
hccn_tool -i 5 -ip -s address 修改成自己规划的IP netmask 255.255.255.0 
hccn_tool -i 6 -ip -s address 修改成自己规划的IP netmask 255.255.255.0 
hccn_tool -i 7 -ip -s address 修改成自己规划的IP netmask 255.255.255.0

3.2、配置检测IP

检测IP配置成对端NPU口的IP,比如说机器1的IP是: 192.168.10.11,机器2的IP是:192.168.10.19。那机器1的检测IP就是:192.168.10.19,机器2的检测IP就是:192.168.10.11。

# 配置master节点上NPU的侦测IP
hccn_tool -i 0 -netdetect -s address 修改成自己规划的IP
hccn_tool -i 1 -netdetect -s address 修改成自己规划的IP
hccn_tool -i 2 -netdetect -s address 修改成自己规划的IP
hccn_tool -i 3 -netdetect -s address 修改成自己规划的IP
hccn_tool -i 4 -netdetect -s address 修改成自己规划的IP
hccn_tool -i 5 -netdetect -s address 修改成自己规划的IP
hccn_tool -i 6 -netdetect -s address 修改成自己规划的IP
hccn_tool -i 7 -netdetect -s address 修改成自己规划的IP

# 配置master节点上NPU的侦测IP
hccn_tool -i 0 -netdetect -s address 修改成自己规划的IP
hccn_tool -i 1 -netdetect -s address 修改成自己规划的IP
hccn_tool -i 2 -netdetect -s address 修改成自己规划的IP
hccn_tool -i 3 -netdetect -s address 修改成自己规划的IP
hccn_tool -i 4 -netdetect -s address 修改成自己规划的IP
hccn_tool -i 5 -netdetect -s address 修改成自己规划的IP
hccn_tool -i 6 -netdetect -s address 修改成自己规划的IP
hccn_tool -i 7 -netdetect -s address 修改成自己规划的IP

3.3、关闭TLS

for i in {0..7}; do hccn_tool -i $i -tls -s enable 0 ; done

3.4、检测配置是否正确

1.1、检查物理链接
for i in {0..7}; do hccn_tool -i $i -lldp -g | grep Ifname; done 

1.2、检查链接情况
for i in {0..7}; do hccn_tool -i $i -link -g ; done

1.3、检查网络健康情况
for i in {0..7}; do hccn_tool -i $i -net_health -g ; done

1.4、查看侦测ip的配置是否正确
for i in {0..7}; do hccn_tool -i $i -netdetect -g ; done

1.5、获取每张卡的ip地址
for i in {0..7};do hccn_tool -i $i -ip -g; done

1.6、检测NPU底层TLS行为一致性,每台机器需要是一样的值,建议全0
for i in {0..7}; do hccn_tool -i $i -tls -g ; done | grep switch

1.7、NPU底层tls校验行为置0操作 
for i in {0..7};do hccn_tool -i $i -tls -s enable 0;done

1.8、检测机器间NPU互联情况
hccn_tool -i NPU节点 -ping -g address 另一台机器NPU的IP

四、编辑rank_table_file.json文件

{
   "server_count": "2",
   "server_list": [
      {
         "device": [
            {
               "device_id": "0",
               "device_ip": "参数面IP-修改成自己规划的IP",
               "rank_id": "0"
            },
            {
               "device_id": "1",
               "device_ip": "参数面IP-修改成自己规划的IP",
               "rank_id": "1"
            },
			   {
               "device_id": "2",
               "device_ip": "参数面IP-修改成自己规划的IP",
               "rank_id": "2"
            },
			   {
               "device_id": "3",
               "device_ip": "参数面IP-修改成自己规划的IP",
               "rank_id": "3"
            },
			   {
               "device_id": "4",
               "device_ip": "参数面IP-修改成自己规划的IP",
               "rank_id": "4"
            },
			   {
               "device_id": "5",
               "device_ip": "参数面IP-修改成自己规划的IP",
               "rank_id": "5"
            },
			   {
               "device_id": "6",
               "device_ip": "参数面IP-修改成自己规划的IP",
               "rank_id": "6"
            },
			   {
               "device_id": "7",
               "device_ip": "参数面IP-修改成自己规划的IP",
               "rank_id": "7"
            }
         ],
         "server_id": "master-业务IP",
         "container_ip": "master-业务IP"
      },
      {
         "device": [
            {
               "device_id": "0",
               "device_ip": "参数面IP-修改成自己规划的IP",
               "rank_id": "8"
            },
            {
               "device_id": "1",
               "device_ip": "参数面IP-修改成自己规划的IP",
               "rank_id": "9"
            },
			   {
               "device_id": "2",
               "device_ip": "参数面IP-修改成自己规划的IP",
               "rank_id": "10"
            },
			   {
               "device_id": "3",
               "device_ip": "参数面IP-修改成自己规划的IP",
               "rank_id": "11"
            },
			   {
               "device_id": "4",
               "device_ip": "参数面IP-修改成自己规划的IP",
               "rank_id": "12"
            },
			   {
               "device_id": "5",
               "device_ip": "参数面IP-修改成自己规划的IP",
               "rank_id": "13"
            },
			{
               "device_id": "6",
               "device_ip": "参数面IP-修改成自己规划的IP",
               "rank_id": "14"
            },
			   {
               "device_id": "7",
               "device_ip": "参数面IP-修改成自己规划的IP",
               "rank_id": "15"
            }
         ],
         "server_id": "node-业务IP",
         "container_ip": "node-业务IP"
      }
   ],
   "status": "completed",
   "version": "1.0"
}

五、启动容器

docker run -itd --privileged  --name=容器名称 --net=host \
   --shm-size 500g \
   --device=/dev/davinci0 \
   --device=/dev/davinci1 \
   --device=/dev/davinci2 \
   --device=/dev/davinci3 \
   --device=/dev/davinci4 \
   --device=/dev/davinci5 \
   --device=/dev/davinci6 \
   --device=/dev/davinci7 \
   --device=/dev/davinci_manager \
   --device=/dev/hisi_hdc \
   --device /dev/devmm_svm \
   -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
   -v /usr/local/Ascend/firmware:/usr/local/Ascend/firmware \
   -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \
   -v /usr/local/sbin:/usr/local/sbin \
   -v /etc/hccn.conf:/etc/hccn.conf \
   -v 物理机权重路径:容器权重路径 \
   容器镜像名称或ID \
   bash

六、设置容器环境变量

vim ~/.bashrc

# 添加如下配置:
source /usr/local/Ascend/ascend-toolkit/set_env.sh
source /usr/local/Ascend/nnal/atb/set_env.sh
source /usr/local/Ascend/atb-models/set_env.sh
source /usr/local/Ascend/mindie/set_env.sh
export ATB_LLM_HCCL_ENABLE=1
export ATB_LLM_COMM_BACKEND="hccl"
export HCCL_CONNECT_TIMEOUT=7200
export WORLD_SIZE=32
export HCCL_EXEC_TIMEOUT=0
export RANKTABLEFILE=/opt/rank_table_file.json
export MIES_CONTAINER_IP= {容器ip地址}
export MINDIE_LOG_STDOUT = 1
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export ATB_WORKSPACE_MEM_ALLOC_ALG_TYPE=3
export ATB_WORKSPACE_MEM_ALLOC_GLOBAL=1
export OMP_NUM_THREADS=10
export NPU_MEMORY_FRACTION=0.96
export HCCL_DETERMINISTIC=false
export ATB_LLM_BENCHMARK_ENABLE=1
unset HCCL_OP_EXPANSION_MODE
export HCCL_EXEC_TIMEOUT=0
export TASK_QUEUE_ENABLE=2
export CPU_AFFINITY_CONF=1
export MINDIE_CHECK_INPUTFILES_PERMISSIONS=0
unset HCCL_RDMA_PCIE_DIRECT_POST_NOSTRICT
export MINDIE_LOG_TO_STDOUT="benchmark:1; client:1"

七、拉起服务

# 修改MindIE配置文件
cd /usr/local/Ascend/mindie/latest/mindie-service/
vim conf/config.json

# 修改如下配置:
"ipAddress" : "改成主节点IP"
 "managementIpAddress" : "改成主节点IP"
"httpsEnabled" : false
"multiNodesInferEnabled" : true
"interCommTLSEnabled" : false
"interNodeTLSEnabled" : false
"npudeviceIds" : [[0,1,2,3,4,5,6,7]]
"modelName" : "模型名称"
"modelWeightPath" : "权重路径"
"worldSize":8

# 配置文件权限
chmod -R 640 {rank_table_file.json路径}
chmod -R 750 {/path-to-weights}

# 拉起服务
nohup ./bin/mindieservice_daemon > output.log 2>&1 &

# 停止服务
ps -ef | grep mindieservice
pkill -9 mindieservice

八、测试

curl http://IP:1025/v1/chat/completions -d '{
    "model": "改为mindie配置文件中设置的名称",
    "messages": [{"role": "user", "content": "请告诉我关于人工智能的一些信息。"}],
    "stream": true
  }'

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2321115.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SAP Activate Methodology in a Nutshell Phases of SAP Activate Methodology

SAP Activate Methodology in a Nutshell Phases of SAP Activate Methodology

开源AI大模型、AI智能名片与S2B2C商城小程序源码:实体店引流的破局之道

摘要:本文聚焦实体店引流困境,提出基于"开源AI大模型AI智能名片S2B2C商城小程序源码"的技术整合方案。通过深度解析各技术核心机制与协同逻辑,结合明源云地产营销、杭州美甲店裂变等实际案例,论证其对流量精准获取、客户…

JVM 02

今天是2025/03/23 19:07 day 10 总路线请移步主页Java大纲相关文章 今天进行JVM 3,4 个模块的归纳 首先是JVM的相关内容概括的思维导图 3. 类加载机制 加载过程 加载(Loading) 通过类全限定名获取类的二进制字节流(如从JAR包、网络、动态…

pyecharts在jupyter notebook中不能够渲染图表问题。

在使用jupyter notebook中使用pyecharts绘制可视化图表的时候,发现图表不能渲染到页面中,生成的html是没问题的,本文主要解决在jupyter notebook中不能渲染这个问题。 1、原因分析 2、解决办法 如果是使用的虚拟环境,需要下你提前激活虚拟环境,再进行下列操作。 因为需要…

《AI大模型趣味实战 》第7集:多端适配 个人新闻头条 基于大模型和RSS聚合打造个人新闻电台(Flask WEB版) 1

AI大模型趣味实战 第7集:多端适配 个人新闻头条 基于大模型和RSS聚合打造个人新闻电台(Flask WEB版) 1 摘要 在信息爆炸的时代,如何高效获取和筛选感兴趣的新闻内容成为一个现实问题。本文将带领读者通过Python和Flask框架,结合大模型的强大…

基于Spring Boot的健身房管理系统的设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导,欢迎高校老师/同行前辈交流合作✌。 技术范围:SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:…

WSL Linux 子系统download

WSL各Linux 子系统下载 WSL Linux 最新下载 微软应用商店 | Microsoft StoreWSL Linux 历史版下载复制应用商店Linux地址到转换下载地址https://store.rg-adguard.net/ Version百度网盘离线下载OracleLinux提取

Qt中通过QLabel实时显示图像

Qt中的QLabel控件用于显示文本或图像,不提供用户交互功能。以下测试代码用于从内置摄像头获取图像并实时显示: Widgets_Test.h: class Widgets_Test : public QMainWindow {Q_OBJECTpublic:Widgets_Test(QWidget *parent nullptr);~Widgets…

基于springboot的校园资料分享平台(048)

摘要 随着信息互联网购物的飞速发展,国内放开了自媒体的政策,一般企业都开始开发属于自己内容分发平台的网站。本文介绍了校园资料分享平台的开发全过程。通过分析企业对于校园资料分享平台的需求,创建了一个计算机管理校园资料分享平台的方案…

CS2 demo manager 安装

CS2DM CS Demo Managerhttps://cs-demo-manager.com/PostgreSQL(CS2DM需要17以上) EDB: Open-Source, Enterprise Postgres Database Managementhttps://www.enterprisedb.com/downloads/postgres-postgresql-downloads 新CS2dm现在打开是这样的&…

奇怪的异形选项卡样式、弧形边框选项卡

<template><div :class"$options.name"><div class"tab">默认选项卡</div><div class"tab" active>选中选项卡</div><el-divider /><el-tabs v-model"tabActiveName" tab-click"(t…

3.23 代码随想录第二十四天打卡

122.买卖股票的最佳时机II (1)题目描述: (2)解题思路: class Solution { public:int maxProfit(vector<int>& prices) {int result 0;for (int i 1; i < prices.size(); i) {result max(prices[i] - prices[i - 1], 0);}return result;} }; (3)总结: 1.假…

Python---数据分析(Pandas十一:二维数组DataFrame统计计算二)

1、std 用于计算 DataFrame 中数值的标准差。 DataFrame.std(axis0, skipnaTrue, ddof1, numeric_onlyFalse, **kwargs) 描述说明axis {0 或 ‘index’, 1 或 ‘columns’, None}, 默认为 0。这个参数决定了计算标准差是在哪个轴上进行&#xff1a; 如果 axis0 或 axisindex&…

OpenCV平滑处理:图像去噪与模糊技术详解

引言 在图像处理中&#xff0c;噪声是一个常见的问题&#xff0c;它可能来自于图像采集设备、传输过程或环境干扰。为了去除噪声并改善图像质量&#xff0c;平滑处理&#xff08;Smoothing&#xff09;是一种常用的技术。OpenCV提供了多种平滑处理方法&#xff0c;包括均值滤波…

使用Python将视频转化为gif

使用Python将视频转化为gif 一、前言二、准备三、测试 一、前言 最近想把喜欢的视频片段作成gif&#xff0c;就试着用Python做了下&#xff0c;感觉效果还行&#xff0c;这里做个记录。 二、准备 先下载安装对应的库&#xff0c;命令如下&#xff1a; pip install moviepy …

HTTP长连接与短连接的前世今生

HTTP长连接与短连接的前世今生 大家好&#xff01;作为一名在互联网摸爬滚打多年的开发者&#xff0c;今天想跟大家聊聊HTTP中的长连接和短连接这个话题。 记得我刚入行时&#xff0c;对这些概念一头雾水&#xff0c;希望这篇文章能帮助新入行的朋友少走些弯路。 什么是HTTP…

批量将 PPT 文档中的图片提取到文件夹

在 PPT 文档中我们可以插入很多的图片来丰富我们的幻灯片页面&#xff0c;但是当我们需要将 PPT 幻灯片中的图片提取出来的时候&#xff0c;会非常的麻烦&#xff0c;因为我们需要打开 PPT 然后将图片保存起来。会非常的耗费我们的时间和精力。今天给大家介绍的就是一种批量将 …

yolo目标检测算法在DJI上的研究分析(大纲)

yolo目标检测算法在DJI上的研究分析 面向边缘计算的实时目标检测系统设计与部署 第一章 绪论 1.1 研究背景与意义 目标检测技术需求&#xff1a; DJI设备&#xff08;如无人机、摄像头&#xff09;在安防、巡检、农业等场景中的广泛应用现有YOLO算法在高分辨率图像或资源受限…

MyBatisPlus(SpringBoot版)学习第二讲:基本CRUD

目录 1.BaseMapper 2. 基本CRUD 1. 插入一条记录 2. 删除 1>. 根据ID删除 2>. 根据实体&#xff08;ID&#xff09;删除 3>. 根据columnMap条件删除 4>. 根据entity条件删除 5>. 根据ID批量删除 3. 修改 1>. 根据ID修改 2>. 根据whereEntity条…

基于Spring Boot的企业内管信息化系统的设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导&#xff0c;欢迎高校老师/同行前辈交流合作✌。 技术范围&#xff1a;SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容&#xff1a;…