文章 | Miao16

Ubuntu安装CuDNN 9.10.1

系统环境操作系统: Ubuntu 22.04.3 CUDA环境: 12.8 NVIDIA驱动: 570.124.06 cuDNN版本: 9.10.1 一. cuDNN安装步骤 1. 下载cuDNN 历史版本下载: https://developer.nvidia.com/cudnn-archive 最新版本下载: https://developer.nvidia.com/rdp/cudnn-download 使用wget下载安装包： 1 wget https://developer.download.nvidia.com/compute/cudnn/9.10.1/local_installers/cudnn-local-repo-ubuntu2204-9.10.1_1.0-1_amd64.deb 2. 安装cuDNN包 1 dpkg -i cudnn-local-repo-ubuntu2204-9.10.1_1.0-1_amd64.deb 3. 添加密钥并安装复制密钥文件： 1 sudo cp /var/cudnn-local-repo-ubuntu2204-9.10.1/cudnn-*-keyring.gpg /usr/share/keyrings/ 更新包列表并安装： 1 2 3 4 5 6 7 sudo apt-get update sudo apt-get -y install cudnn cd /var/cudnn-local-repo-ubuntu2204-9.10.1/ dpkg -i libcudnn9-samples_9.10.1.4-1_all.deb dpkg -i libcudnn9-cuda-12_9.10.1.4-1_amd64.deb dpkg -i libcudnn9-dev-cuda-12_9.10.1.4-1_amd64.deb dpkg -i libcudnn9-headers-cuda-12_9.10.1.4-1_amd64.deb 二. 环境验证 1. 版本验证使用以下命令检查cuDNN版本： ...

[问题记录]GDR模块无法构建,重新编译nvidia-peermem

场景描述 OS： openEuler 22.03 SP3 项目操作系统使用openEuler 22.03 SP3，在进行跨节点 nccl-test 测试的时候发现 nvidia-peermem 无法加载使用RDMA。注意： H200节点跨节点通信只有100+GB，因为没有开启GDR，所以默认走PCIE，链路瓶颈就在于PCIE 测试参数及带宽如下 1 2 3 4 5 6 7 8 9 10 11 12 13 mpirun \ --allow-run-as-root \ --prefix /usr/local/openmpi \ -H 1.1.1.1:8,1.1.1.2:8 \ -mca btl_tcp_if_exclude lo,docker0 \ -x LD_LIBRARY_PATH=/usr/local/cuda/lib64:/usr/local/openmpi/lib/:/root/test_env/nccl/build/lib/ \ -x PATH \ -x NCCL_IB_DISABLE=0 \ -x NCCL_IB_HCA=mlx5_0,mlx5_1,mlx5_2,mlx5_3,mlx5_4,mlx5_7,mlx5_8,mlx5_9 \ -x NCCL_DEBUG=INFO \ -x NCCL_IB_QPS_PER_CONNECTION=8 \ -x NCCL_SOCKET_IFNAME=bond4.24 \ ./build/all_reduce_perf -b 8M -e 8G -g 1 -f 2 问题解决从GitHub拉取nvidia-peermem进行编译 1. 拉取nvidia-peermem源码 1 sudo git clone https://github.com/Mellanox/nv_peer_memory.git 2. 编译并安装nv_peer_mem.ko 1 2 3 4 cd nv_peer_memory && make cp nv_peer_mem.ko /lib/modules/$(uname -r)/kernel/drivers/video depmod -a modprobe nv_peer_mem 3. 检查模块加载状态 1 2 # 可通过lsmod|grep nv_peer_mem检查 lsmod|grep nv_peer_mem 加载模块后的测试结果 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 mpirun \ --allow-run-as-root \ --prefix /usr/local/openmpi \ -H 1.1.1.1:8,1.1.1.2:8 \ -mca btl_tcp_if_exclude lo,docker0 \ -x LD_LIBRARY_PATH=/usr/local/cuda/lib64:/usr/local/openmpi/lib/:/root/test_env/nccl/build/lib/ \ -x PATH \ -x NCCL_IB_DISABLE=0 \ -x NCCL_IB_HCA=mlx5_0,mlx5_1,mlx5_2,mlx5_3,mlx5_4,mlx5_7,mlx5_8,mlx5_9 \ -x NCCL_IB_QPS_PER_CONNECTION=8 \ -x NCCL_ALGO=Ring \ -x NCCL_DEBUG=INFO \ -x NCCL_SOCKET_IFNAME=enp25s0np0 \ -x NCCL_IB_TC=160 \ -x NCCL_NET_GDR_LEVEL=4 \ ./build/all_reduce_perf -b 4G -e 32G -g 1 -n 20 -w 5 ...

Windows Server网卡Bond配置指南

概述在Windows Server环境中，网卡Bond（也称为网络组或NIC Teaming）可以提供网络冗余和负载均衡。本文将详细介绍如何使用PowerShell创建和管理网卡Bond。前提条件 Windows Server系统至少两块网卡管理员权限的PowerShell 配置步骤 1. 查看当前网卡列表首先打开PowerShell（以管理员身份运行），执行以下命令查看当前网卡详情： 1 Get-NetAdapter 此命令将显示系统中所有网络适配器的详细信息，包括：网卡名称接口描述连接状态链路速度 2. 创建网卡Bond 使用New-NetSwitchTeam命令创建网卡Bond绑定。注意网卡名称之间的空格和引号使用： 1 New-NetSwitchTeam -Name "bond1" -TeamMembers "以太网 2","以太网 3" 参数说明： -Name：指定Bond的名称 -TeamMembers：指定要加入Bond的物理网卡名称重要提示：请根据步骤1中Get-NetAdapter的输出，准确填写要做Bond的物理网卡名称。 3. 验证Bond配置创建完成后，通过以下命令验证Bond是否设置成功： 3.1 使用Get-NetAdapter验证 1 Get-NetAdapter 3.2 使用ipconfig验证 1 ipconfig /all 在输出中应该能看到新创建的Bond接口（bond1），并且原来的物理网卡状态会发生变化。 VLAN配置（可选） 4. 配置VLAN标签如果业务需求要求将Bond接口放通到特定VLAN（如VLAN 128），需要在物理接口上设置VLAN标签。注意：在创建Bond后，无法直接在Bond接口上设置VLAN标签，需要在各个物理接口（Slave接口）上分别设置。 4.1 打开网络适配器设置打开"网络和共享中心" 点击"更改适配器设置" 右键点击要配置的网卡，选择"属性" 选择"Microsoft 网络客户端" 4.2 设置VLAN ID 点击"配置"按钮在"高级"选项卡中找到"VLAN ID"设置填写交换机Trunk端口对应的VLAN号 ...

NVIDIA DCGM01

什么是NVIDIA DCGM？ NVIDIA 数据中心 GPU 管理器 (DCGM) 是一套专为管理和监控集群环境中的 NVIDIA 数据中心 GPU 而设计的综合工具集。它为数据中心提供了企业级的GPU管理解决方案。核心功能特性主动运行状况监控 - 实时监控GPU健康状态全面诊断 - 多级别的硬件诊断和性能测试系统警报 - 智能告警系统和策略管理治理策略 - 包括电源和时钟管理易于集成 - 可轻松集成到现有的集群管理工具中 Kubernetes支持 - 通过DCGM-Exporter提供容器化环境支持支持平台 DCGM 支持以下平台的 Linux 操作系统： x86_64 架构 Arm 架构 POWER (ppc64le) 架构相关资源官方网站: https://developer.nvidia.com/dcgm GitHub仓库: https://github.com/NVIDIA/DCGM 概述文档: https://docs.nvidia.com/datacenter/dcgm/latest/user-guide/getting-started.html 安装DCGM Ubuntu 22.04 环境部署 1. 获取安装包根据你的系统架构选择对应的安装包： x86架构： 1 2 # 下载地址 https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2204/x86_64/ ARM64架构（鲲鹏）： 1 2 # 下载地址 https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2204/sbsa/ 2. 下载和安装 1 2 3 4 5 # 下载DCGM安装包 wget https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2204/x86_64/datacenter-gpu-manager_3.3.6_amd64.deb # 安装DCGM sudo dpkg -i datacenter-gpu-manager_3.3.6_amd64.deb 3. 验证安装安装完成后，系统会包含以下关键二进制文件： ...

Mellanox网卡常用命令详解

1. lspci - 检查本地PCI设备检查本地的PCI设备，用于识别Mellanox网卡。示例： lspci | grep -i mell 2. ofed_info - 检测OFED驱动版本检测OFED驱动版本信息。示例： ofed_info -s 3. ibstat - 查看IB网卡状态查看本机的InfiniBand网卡状态。 4. mst - Mellanox软件管理工具 Mellanox软件管理工具，用来生成IB设备描述符，提供给其他命令使用。示例： mst start 5. mlnx_perf - 查看端口收发流量可以查看端口的收发流量。参数说明： -i：选项接IB设备名称，如ib0, ib1… -t：每隔多久采集一次，单位秒 -c：采集多少次 6. ibswitches - 获取子网交换机信息获取当前子网的所有交换机的信息。显示子网内所有识别到的交换机的GUID、端口数量、交换机名字、LID号等。 7. ibhosts - 获取子网HCA信息获取当前子网的所有HCA的信息。显示子网内所有识别到的HCA的GUID、端口数量、交换机名字、LID号等。 8. ibnodes - 获取子网所有设备信息获取当前子网的所有交换机和HCA的信息。显示子网内所有识别到的交换机和HCA的GUID、端口数量、交换机名字、LID号等。相当于ibhosts和ibswitches命令的合并。 9. ibnetdiscover - 扫描IB网络设备扫描当前网络中的IB设备。输出内容包括GUID、端口号、LID号和节点描述以及交换机和HCA卡的连接关系。 ...

系统下屏蔽GPU显卡

Ubuntu NVIDIA驱动部署

一. 基础环境准备 1. 系统优化 1. 锁定内核版本防止系统自动升级导致驱动不兼容： 1 apt-mark hold linux-generic linux-image-generic linux-headers-generic 2. 关闭自动更新 1 2 sudo sed -i.bak 's/1/0/' /etc/apt/apt.conf.d/10periodic &> /dev/null sudo sed -i.bak 's/1/0/' /etc/apt/apt.conf.d/20auto-upgrades &> /dev/null 2. 依赖安装安装编译必需的工具： 1 apt install gcc make -y 二. 驱动下载 1. NVIDIA Driver下载访问NVIDIA官方驱动下载页面：官方链接: https://www.nvidia.cn/drivers/lookup/ 根据您的GPU型号和操作系统版本选择合适的驱动版本。下载后会获得一个.run安装包，直接上传到服务器即可。 2. CUDA下载访问NVIDIA CUDA下载页面：官方链接: https://developer.nvidia.com/cuda-downloads 选择对应的操作系统、架构和版本，推荐下载.run格式的安装包，便于自定义安装选项。 3. NVIDIA Fabric Manager下载注：仅SXM接口的GPU需要，PCIe接口的GPU不需要此组件。 1 wget https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2004/x86_64/nvidia-fabricmanager-535_535.154.05-1_amd64.deb 三. 驱动安装 1. NVIDIA Driver安装使用以下命令安装NVIDIA驱动（根据实际版本号修改）： ...

Docker调用ROCM

物理机部署 rocm 超算GPU平台 https://download.pytorch.org/whl/torch_stable.html source /opt/rocm/env.sh 或者 module load /root/dtkxxx env.sh 内容如下 1 2 3 4 5 6 7 8 9 10 11 12 13 14 #!/bin/bash # get DTKROOT by env.sh location DTKROOT="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)/$(basename "${BASH_SOURCE[0]}")" export DTKROOT=$(dirname $DTKROOT) export AMDGPU_TARGETS="gfx906" export ROCM_PATH=$DTKROOT export HIP_PATH=${ROCM_PATH}/hip export PATH=$ROCM_PATH/bin:$ROCM_PATH/opencl/bin:$ROCM_PATH/llvm/bin:$ROCM_PATH/hip/bin:$PATH export LD_LIBRARY_PATH=${ROCM_PATH}/lib:${ROCM_PATH}/opencl/lib:${ROCM_PATH}/lib64:$LD_LIBRARY_PATH export LD_LIBRARY_PATH=${ROCM_PATH}/hip/lib:${ROCM_PATH}/llvm/lib:$LD_LIBRARY_PATH export C_INCLUDE_PATH=${ROCM_PATH}/include:${ROCM_PATH}/llvm/include${C_INCLUDE_PATH:+:${C_INCLUDE_PATH}} export CPLUS_INCLUDE_PATH=${ROCM_PATH}/include:${ROCM_PATH}/llvm/include${CPLUS_INCLUDE_PATH:+:${CPLUS_INCLUDE_PATH}} rocm-smi 查看GPU docker 部署eth –gfx906 超算GPU平台 1 docker run -it --name testa1 --env-file ./env --device=/dev/dri --device=/dev/kfd jupyter:v1 /bin/bash 说明： ...

最新文章

Ubuntu安装CuDNN 9.10.1

[问题记录]GDR模块无法构建,重新编译nvidi...

Windows Server网卡Bond配置指南...

NVIDIA DCGM01

Mellanox网卡常用命令详解...

文章

Ubuntu安装CuDNN 9.10.1

[问题记录]GDR模块无法构建,重新编译nvidia-peermem

Windows Server网卡Bond配置指南

NVIDIA DCGM01

Mellanox网卡常用命令详解

系统下屏蔽GPU显卡

Ubuntu NVIDIA驱动部署

Docker调用ROCM