Mellanoxnvidia ib高速网络常用命令总结

news2024/11/20 3:31:01

1.spci:检查本地的pci设备。示例:lspci| grep -i mell

2.ofed_info:检测ofed驱动版本。示例:ofed_info-s

3.ibstat:查看本机的ib网卡状态。

4.mst:mellnoax软件管理工具。用来生成IB设备描述符。提供给其他命令使用。示例:mststart

5.mlnx_perf :可以查看端口的收发流量。

-i:选项接ib设备名称,ib0,ib1...

-t:每隔多久采集一次,单位s

-c:采集多少次。

6.smpquery:可以根据LID号,GUID号,Direct路径获取到节点详细信息。-D选项,当ib某些节点超时的时候,还有opensm日志提示报错通常通过直接路径报出来,而需要这个参数选项去追踪是哪个节点提示该种错误,方便定位问题。

7.ibswitches:获取当前子网的所有交换机的信息。显示子网内所有识别到的交换机的GUID、端口数量、交换机名字、LID号等等。

8.ibhosts:获取当前子网的所有HCA的信息。显示子网内所有识别到的HCA的GUID、端口数量、交换机名字、LID号等等。

9.ibnodes:获取当前子网的所有交换机和HCA的信息。显示子网内所有识别到的交换机和HCA的GUID、端口数量、交换机名字、LID号等等。相当于ibhosts和ibswirchs命令的合并。

10.ibnetdiscover:扫描当前网络中的IB设备。输出内容包括GUID、端口号、LID号和节点描述以及交换机和HCA卡的连接关系。

11.iblinkinfo:检查网络拓扑是否按照最初规划的网络准确并连接正常,使用iblinkinfo,可以观察到所有节点和交换机的端口连接情况。该交换机SW200总计有41个端口,第41个端口虚拟出来用来进行sheild功能,实际不存在物理端口。第一列至最后一列是本端交换机LID端口号,with,速率,状态,物理状态,对端LID号,对端端口号,对端名字。

查看单个交换机的端口状态。示例:iblinkinfo-S 0x1c34da0300608344。

查看该计算节点上联交换机的端口连接状态。示例:iblinkinfo-D 0,1

12.ibdiagnet:该指令扫描整个网络,诊断设备和网络连接状态,并生成报告。

示例:查看误码率,ibdiagnet --pc--get_phy_info

ibdiagnet.log : 全部应用信息报告

ibdiagnet.lst : 网络所有节点、端口和链路信息列表

ibdiagnet.fdbs :网络全部交换机的单播转发表

ibdiagnet.mcfdbs :网络全部交换机的多播转发表

ibdiagnet.masks :重复GUID端口、节点掩码表

ibdiagnet.sm :网络所有子网管理器SM列表

ibdiagnet.pm : 网络链路的性能管理器计数器信息

ibdiagnet.pkey :分区信息和成员主机端口信息

ibdiagnet.mcg :多播组属性,成员主机端口信息

ibdiagnet.db : 内部子网数据库信息

13.ibtracecert:根据GID或者LID,来追踪源地址到目标地址的每条的详细的节点信息。

14.sminfo:获取当前节点的子网管理器的信息。禁止批量执行该命令,会引起opensm服务异常。

15.saquery:查看子网内的子网管理器。

16.mget_temp:获取网卡或交换机的温度。

17.mlxlink:用于检查和调式连接状态以及与之相关的问题。

注意:Speed:表示当前网卡支持的最大带宽速率。

注意:EnabledLink Speed:表示当前网卡支持的协商速率。

注意:SupportCable Speed:表示与 IB 交换模块连接的线缆支持的协商速率(红色字体表示为内部连接无cable)

注意:该命令比较常用,可以用来检查端口的误码率(-c)和光口的温度(-m)、线缆长度等等。

18.ibqueryerrors:报告链路、端口误码率、重传次数等计数器报错信息。

示例:ibqueryerrors-S 0x1c34da03006082a4

19.ibportstate:来管理交换机的端口,enable、reset、disable等等。如果交换机的端口disable了,连对端卡的状态就是polling。

示例:ibportstate 127 37enable  # 启动lid为127的交换机的37号端口。

示例:ibportstate 12737                #查看lid为127的交换机的37号端口。

20.perfquery:查看端口计数器,主要用来排错。

示例:perfquery32 2:显示lid号为32的设备的2号端口的计数器。

示例:perfquery-l 26  1-10 -r:分别显示lid号为26的设备的1-10号端口的计数器。

-r:读取指定的端口计数器之后,重新开始计数。

-l:显示每一个端口的数据

-a:将所有端口,数据汇聚后,展示。

21.ib_send_bw:测试两个节点的带宽。常用参数

-a:Runsizes from 2 till 2^23

-c:指定连接类型。RC面向连接的可靠服务。UC面向连接的不可靠服务。UD面向数据包的不可靠服务。

-F:表示屏蔽掉CPU频率相关的提示信息。有时候CPU不到最大频率,会有提示信息。

-d:表示卡的id。

-i:指定网卡的端口

服务端: ib_send_bw -a -cUD -F -d mlx5_0

客户端: ib_send_bw -a -cUD -F -d mlx5_0 11.4.3.19

22.ib_send_lat:测试两个节点的延迟,用法类似。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1838213.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

华北水利水电大学-C程序设计作业

目录 基础题 1-1 分析 代码实现 1-2 分析 代码实现 1-3 分析 代码实现 1-4 ​编辑 分析 代码实现 1-5 分析 代码实现 1-6 分析 代码实现 基础题 1-1 从键盘输入10个学生的有关数据,然后把它们转存到磁盘文件上去。其中学生信息包括学号、姓名…

公司电脑加密软件——【中科数安】电脑文件资料透明加密,防泄密系统

中科数安电脑文件资料透明加密防泄密系统介绍 中科数安提供的电脑文件资料透明加密防泄密系统,是一款专为企业电脑终端设计的数据安全解决方案。该系统通过采用先进的透明加密技术和精细化的权限管理,旨在全方位保护公司电脑中存储、处理、传输的各类文…

新书速览|Ubuntu Linux运维从零开始学

《Ubuntu Linux运维从零开始学》 本书内容 Ubuntu Linux是目前最流行的Linux操作系统之一。Ubuntu的目标在于为一般用户提供一个最新的、相当稳定的、主要由自由软件构建而成的操作系统。Ubuntu具有庞大的社区力量,用户可以方便地从社区获得帮助。《Ubuntu Linux运…

【分布预测】DistPred:回归与预测的无分布概率推理方法

论文题目:DistPred: A Distribution-Free Probabilistic Inference Method for Regression and Forecasting 论文作者:Daojun Liang, Haixia Zhang,Dongfeng Yuan 论文地址:https://arxiv.org/abs/2406.11397 代码地址&#xff1a…

2024 AI大模型 常问的问题以及答案(附最新的AI大模型面试大厂题 )

前言 在2024年AI大模型的面试中,常问的问题以及答案可能会涵盖多个方面,包括AI大模型的基础知识、训练过程、应用、挑战和前沿趋势等。由于我无法直接附上174题的完整面试题库及其答案,我将基于提供的信息和当前AI大模型领域的热点&#xff…

神经网络模型---ResNet

一、ResNet 1.导入包 import tensorflow as tf from tensorflow.keras import layers, models, datasets, optimizersoptimizers是用于更新模型参数以最小化损失函数的算法 2.加载数据集、归一化、转为独热编码的内容一致 3.增加颜色通道 train_images train_images[...,…

lucene原理

一、正排索引 Lucene的基础层次结构由索引、段、文档、域、词五个部分组成。正向索引的生成即为基于Lucene的基础层次结构一级一级处理文档并分解域存储词的过程。 索引文件层级关系如图1所示: 索引:Lucene索引库包含了搜索文本的所有内容&#xff0…

window端口占用情况及state解析

背景: 在电脑使用过程中,经常会开许多项目,慢慢地发现电脑越来越卡,都不知道到底是在跑什么项目导致,于是就想查看一下电脑到底在跑什么软件和项目,以作记录。 常用命令 netstat -tuln : 使用…

【YOLOv8改进[注意力]】使用CascadedGroupAttention(2023)注意力改进c2f + 含全部代码和详细修改方式 + 手撕结构图

本文将进行在YOLOv8中使用CascadedGroupAttention注意力改进c2f 的实践,助力YOLOv8目标检测效果的实践,文中含全部代码、详细修改方式以及手撕结构图。助您轻松理解改进的方法。 改进前和改进后的参数对比: 目录 一 CascadedGroupAttention 二 使用CascadedGroupAttent…

《Linux运维总结:prometheus+altermanager+webhook-dingtalk配置文件详解》

总结:整理不易,如果对你有帮助,可否点赞关注一下? 更多详细内容请参考:《Linux运维篇:Linux系统运维指南》 一、prometheus配置文件 Prometheus的配置文件是prometheus.yml,在启动时指定相关的…

ECharts综合案例一:近七天跑步数据

一周跑步数据图表分析 引言 在运动数据分析中,可视化工具能够帮助我们更直观地理解运动表现。本周,我们使用 ECharts 创建了一组图表,包括雷达图和折线图,来展现跑步数据。 效果预览 收集了一周内每天的跑步数据,通…

中医药人工智能大模型正式启动

6月15日,在横琴粤澳深度合作区举行的中医药广东省实验室(以下简称横琴实验室)第一届学术委员会第一次会议暨首届横琴中医药科技创新大会上,中医药横琴大模型、中药新药智能自动化融合创新平台同时启动。这也是该实验室揭牌半年来取…

西班牙的人工智能医生

西班牙的人工智能医生 西班牙已将自己定位为欧洲负责任人工智能领域的领导者。然而,透明度的承诺往往落空,公共监督机构一直难以获得对司法和福利系统中部署的算法的有效访问。这使得西班牙成为一种日益增长的趋势的一部分,即政府悄悄地试验预…

Python邮件加密传输如何实现?有哪些技巧?

Python邮件怎么设置服务器?如何使用Python发送邮件? 为了确保邮件内容在传输过程中不被窃听或篡改,使用加密传输是必不可少的。在使用Python邮件传输时,加密传输是保障信息安全的关键手段。AokSend将详细探讨Python邮件加密传输的…

全域外卖系统源码部署怎么做,外卖市场新机遇!

随着本地生活下半场的到来,全域外卖逐渐成为众多创业者关注的焦点,再加上抖音关于新增《【到家外卖】内容服务商开放准入公告》的意见征集通知(以下简称“通知”)的发布,更是将当前全域外卖赛道重点入局方式之一的全域…

Coco Test Engine:代码覆盖率分析的新时代

本文翻译自:Coco Test Engine – The New Era of Code Coverage Analysis 原文作者:Qt Group首席软件工程师Sbastien Fricker 审校:Felix Zhang 我们的Coco 7重大更新带来了一个长期以来备受期待的功能——测试数据生成(即Coco …

南充文化旅游职业学院领导一行莅临泰迪智能科技参观交流

6月18日,南充文化旅游职业学院旅游系副书记刘周、教务处教学运行与质量保障科科长及智慧旅游技术应用专业教研室主任李月娴、大数据技术专业负责人 龙群才、大数据技术专业专任教师 李昱洁莅临泰迪智能科技产教融合实训中心参观交流。泰迪智能科技董事长张良均、副总…

Mac安装 VirtualBox虚拟机

在Mac上安装VirtualBox虚拟机的步骤如下: 步骤1:下载VirtualBox 首先,你需要访问Oracle VM VirtualBox官网 https://www.virtualbox.org,然后在下载页面选择对应的Mac版本下载。 步骤2:打开下载的安装包 下载完成后…

Java预约家政5.0服务本地服务源码(APP+小程序+公众号+H5)

预约家政本地服务平台系统:一站式解决家居需求🏠💼 一、引言:开启便捷家居新时代 在快节奏的现代生活中,我们渴望拥有更多的时间和精力去享受生活,而不是被繁琐的家务所困扰。预约家政本地服务平台系统应…

人工智能--自然语言处理NLP概述

欢迎来到 Papicatch的博客 目录 🍉引言 🍈基本概念 🍈核心技术 🍈常用模型和方法 🍈应用领域 🍈挑战和未来发展 🍉案例分析 🍈机器翻译中的BERT模型 🍈情感分析在…