GDR模块无法构建问题解决方案

场景描述 OS: openEuler 22.03 SP3 项目操作系统使用openEuler 22.03 SP3,在进行跨节点 nccl-test 测试的时候发现 nvidia-peermem 无法加载使用RDMA。 注意: H200节点跨节点通信只有100+GB,因为没有开启GDR,所以默认走PCIE,链路瓶颈就在于PCIE 测试参数及带宽如下 1 2 3 4 5 6 7 8 9 10 11 12 13 mpirun \ --allow-run-as-root \ --prefix /usr/local/openmpi \ -H 1.1.1.1:8,1.1.1.2:8 \ -mca btl_tcp_if_exclude lo,docker0 \ -x LD_LIBRARY_PATH=/usr/local/cuda/lib64:/usr/local/openmpi/lib/:/root/test_env/nccl/build/lib/ \ -x PATH \ -x NCCL_IB_DISABLE=0 \ -x NCCL_IB_HCA=mlx5_0,mlx5_1,mlx5_2,mlx5_3,mlx5_4,mlx5_7,mlx5_8,mlx5_9 \ -x NCCL_DEBUG=INFO \ -x NCCL_IB_QPS_PER_CONNECTION=8 \ -x NCCL_SOCKET_IFNAME=bond4.24 \ ./build/all_reduce_perf -b 8M -e 8G -g 1 -f 2 问题解决 从GitHub拉取nvidia-peermem进行编译 1. 拉取nvidia-peermem源码 1 sudo git clone https://github.com/Mellanox/nv_peer_memory.git 2. 编译并安装nv_peer_mem.ko 1 2 3 4 cd nv_peer_memory && make cp nv_peer_mem.ko /lib/modules/$(uname -r)/kernel/drivers/video depmod -a modprobe nv_peer_mem 3. 检查模块加载状态 1 2 # 可通过lsmod|grep nv_peer_mem检查 lsmod|grep nv_peer_mem 加载模块后的测试结果 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 mpirun \ --allow-run-as-root \ --prefix /usr/local/openmpi \ -H 1.1.1.1:8,1.1.1.2:8 \ -mca btl_tcp_if_exclude lo,docker0 \ -x LD_LIBRARY_PATH=/usr/local/cuda/lib64:/usr/local/openmpi/lib/:/root/test_env/nccl/build/lib/ \ -x PATH \ -x NCCL_IB_DISABLE=0 \ -x NCCL_IB_HCA=mlx5_0,mlx5_1,mlx5_2,mlx5_3,mlx5_4,mlx5_7,mlx5_8,mlx5_9 \ -x NCCL_IB_QPS_PER_CONNECTION=8 \ -x NCCL_ALGO=Ring \ -x NCCL_DEBUG=INFO \ -x NCCL_SOCKET_IFNAME=enp25s0np0 \ -x NCCL_IB_TC=160 \ -x NCCL_NET_GDR_LEVEL=4 \ ./build/all_reduce_perf -b 4G -e 32G -g 1 -n 20 -w 5 ...

2025年08月21日 · 1 min · 190 words · Miao16

NVIDIA DCGM:数据中心GPU管理和监控完整指南

什么是NVIDIA DCGM? NVIDIA 数据中心 GPU 管理器 (DCGM) 是一套专为管理和监控集群环境中的 NVIDIA 数据中心 GPU 而设计的综合工具集。它为数据中心提供了企业级的GPU管理解决方案。 核心功能特性 🔍 主动运行状况监控 - 实时监控GPU健康状态 🩺 全面诊断 - 多级别的硬件诊断和性能测试 🚨 系统警报 - 智能告警系统和策略管理 ⚡ 治理策略 - 包括电源和时钟管理 🔧 易于集成 - 可轻松集成到现有的集群管理工具中 🐳 Kubernetes支持 - 通过DCGM-Exporter提供容器化环境支持 支持平台 DCGM 支持以下平台的 Linux 操作系统: x86_64 架构 Arm 架构 POWER (ppc64le) 架构 相关资源 📖 官方网站 💻 GitHub仓库 📚 概述文档 安装DCGM Ubuntu 22.04 环境部署 1. 获取安装包 根据你的系统架构选择对应的安装包: x86架构: 1 2 # 下载地址 https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2204/x86_64/ ARM64架构(鲲鹏): 1 2 # 下载地址 https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2204/sbsa/ 2. 下载和安装 1 2 3 4 5 # 下载DCGM安装包 wget https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2204/x86_64/datacenter-gpu-manager_3.3.6_amd64.deb # 安装DCGM sudo dpkg -i datacenter-gpu-manager_3.3.6_amd64.deb 3. 验证安装 安装完成后,系统会包含以下关键二进制文件: ...

2024年06月05日 · 3 min · 581 words · Miao16