Ubuntu安装CuDNN 9.10.1

系统环境 操作系统: Ubuntu 22.04.3 CUDA环境: 12.8 NVIDIA驱动: 570.124.06 cuDNN版本: 9.10.1 一. cuDNN安装步骤 1. 下载cuDNN 历史版本下载: https://developer.nvidia.com/cudnn-archive 最新版本下载: https://developer.nvidia.com/rdp/cudnn-download 使用wget下载安装包: 1 wget https://developer.download.nvidia.com/compute/cudnn/9.10.1/local_installers/cudnn-local-repo-ubuntu2204-9.10.1_1.0-1_amd64.deb 2. 安装cuDNN包 1 dpkg -i cudnn-local-repo-ubuntu2204-9.10.1_1.0-1_amd64.deb 3. 添加密钥并安装 复制密钥文件: 1 sudo cp /var/cudnn-local-repo-ubuntu2204-9.10.1/cudnn-*-keyring.gpg /usr/share/keyrings/ 更新包列表并安装: 1 2 3 4 5 6 7 sudo apt-get update sudo apt-get -y install cudnn cd /var/cudnn-local-repo-ubuntu2204-9.10.1/ dpkg -i libcudnn9-samples_9.10.1.4-1_all.deb dpkg -i libcudnn9-cuda-12_9.10.1.4-1_amd64.deb dpkg -i libcudnn9-dev-cuda-12_9.10.1.4-1_amd64.deb dpkg -i libcudnn9-headers-cuda-12_9.10.1.4-1_amd64.deb 二. 环境验证 1. 版本验证 使用以下命令检查cuDNN版本: ...

2025年08月24日 · 1 min · 108 words · Miao16

[问题记录]GDR模块无法构建,重新编译nvidia-peermem

场景描述 OS: openEuler 22.03 SP3 项目操作系统使用openEuler 22.03 SP3,在进行跨节点 nccl-test 测试的时候发现 nvidia-peermem 无法加载使用RDMA。 注意: H200节点跨节点通信只有100+GB,因为没有开启GDR,所以默认走PCIE,链路瓶颈就在于PCIE 测试参数及带宽如下 1 2 3 4 5 6 7 8 9 10 11 12 13 mpirun \ --allow-run-as-root \ --prefix /usr/local/openmpi \ -H 1.1.1.1:8,1.1.1.2:8 \ -mca btl_tcp_if_exclude lo,docker0 \ -x LD_LIBRARY_PATH=/usr/local/cuda/lib64:/usr/local/openmpi/lib/:/root/test_env/nccl/build/lib/ \ -x PATH \ -x NCCL_IB_DISABLE=0 \ -x NCCL_IB_HCA=mlx5_0,mlx5_1,mlx5_2,mlx5_3,mlx5_4,mlx5_7,mlx5_8,mlx5_9 \ -x NCCL_DEBUG=INFO \ -x NCCL_IB_QPS_PER_CONNECTION=8 \ -x NCCL_SOCKET_IFNAME=bond4.24 \ ./build/all_reduce_perf -b 8M -e 8G -g 1 -f 2 问题解决 从GitHub拉取nvidia-peermem进行编译 1. 拉取nvidia-peermem源码 1 sudo git clone https://github.com/Mellanox/nv_peer_memory.git 2. 编译并安装nv_peer_mem.ko 1 2 3 4 cd nv_peer_memory && make cp nv_peer_mem.ko /lib/modules/$(uname -r)/kernel/drivers/video depmod -a modprobe nv_peer_mem 3. 检查模块加载状态 1 2 # 可通过lsmod|grep nv_peer_mem检查 lsmod|grep nv_peer_mem 加载模块后的测试结果 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 mpirun \ --allow-run-as-root \ --prefix /usr/local/openmpi \ -H 1.1.1.1:8,1.1.1.2:8 \ -mca btl_tcp_if_exclude lo,docker0 \ -x LD_LIBRARY_PATH=/usr/local/cuda/lib64:/usr/local/openmpi/lib/:/root/test_env/nccl/build/lib/ \ -x PATH \ -x NCCL_IB_DISABLE=0 \ -x NCCL_IB_HCA=mlx5_0,mlx5_1,mlx5_2,mlx5_3,mlx5_4,mlx5_7,mlx5_8,mlx5_9 \ -x NCCL_IB_QPS_PER_CONNECTION=8 \ -x NCCL_ALGO=Ring \ -x NCCL_DEBUG=INFO \ -x NCCL_SOCKET_IFNAME=enp25s0np0 \ -x NCCL_IB_TC=160 \ -x NCCL_NET_GDR_LEVEL=4 \ ./build/all_reduce_perf -b 4G -e 32G -g 1 -n 20 -w 5 ...

2025年06月14日 · 1 min · 190 words · Miao16

Windows Server网卡Bond配置指南

概述 在Windows Server环境中,网卡Bond(也称为网络组或NIC Teaming)可以提供网络冗余和负载均衡。本文将详细介绍如何使用PowerShell创建和管理网卡Bond。 前提条件 Windows Server系统 至少两块网卡 管理员权限的PowerShell 配置步骤 1. 查看当前网卡列表 首先打开PowerShell(以管理员身份运行),执行以下命令查看当前网卡详情: 1 Get-NetAdapter 此命令将显示系统中所有网络适配器的详细信息,包括: 网卡名称 接口描述 连接状态 链路速度 2. 创建网卡Bond 使用New-NetSwitchTeam命令创建网卡Bond绑定。注意网卡名称之间的空格和引号使用: 1 New-NetSwitchTeam -Name "bond1" -TeamMembers "以太网 2","以太网 3" 参数说明: -Name:指定Bond的名称 -TeamMembers:指定要加入Bond的物理网卡名称 重要提示:请根据步骤1中Get-NetAdapter的输出,准确填写要做Bond的物理网卡名称。 3. 验证Bond配置 创建完成后,通过以下命令验证Bond是否设置成功: 3.1 使用Get-NetAdapter验证 1 Get-NetAdapter 3.2 使用ipconfig验证 1 ipconfig /all 在输出中应该能看到新创建的Bond接口(bond1),并且原来的物理网卡状态会发生变化。 VLAN配置(可选) 4. 配置VLAN标签 如果业务需求要求将Bond接口放通到特定VLAN(如VLAN 128),需要在物理接口上设置VLAN标签。 注意:在创建Bond后,无法直接在Bond接口上设置VLAN标签,需要在各个物理接口(Slave接口)上分别设置。 4.1 打开网络适配器设置 打开"网络和共享中心" 点击"更改适配器设置" 右键点击要配置的网卡,选择"属性" 选择"Microsoft 网络客户端" 4.2 设置VLAN ID 点击"配置"按钮 在"高级"选项卡中找到"VLAN ID"设置 填写交换机Trunk端口对应的VLAN号 ...

2024年12月02日 · 1 min · 88 words · Miao16

NVIDIA DCGM01

什么是NVIDIA DCGM? NVIDIA 数据中心 GPU 管理器 (DCGM) 是一套专为管理和监控集群环境中的 NVIDIA 数据中心 GPU 而设计的综合工具集。它为数据中心提供了企业级的GPU管理解决方案。 核心功能特性 主动运行状况监控 - 实时监控GPU健康状态 全面诊断 - 多级别的硬件诊断和性能测试 系统警报 - 智能告警系统和策略管理 治理策略 - 包括电源和时钟管理 易于集成 - 可轻松集成到现有的集群管理工具中 Kubernetes支持 - 通过DCGM-Exporter提供容器化环境支持 支持平台 DCGM 支持以下平台的 Linux 操作系统: x86_64 架构 Arm 架构 POWER (ppc64le) 架构 相关资源 官方网站: https://developer.nvidia.com/dcgm GitHub仓库: https://github.com/NVIDIA/DCGM 概述文档: https://docs.nvidia.com/datacenter/dcgm/latest/user-guide/getting-started.html 安装DCGM Ubuntu 22.04 环境部署 1. 获取安装包 根据你的系统架构选择对应的安装包: x86架构: 1 2 # 下载地址 https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2204/x86_64/ ARM64架构(鲲鹏): 1 2 # 下载地址 https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2204/sbsa/ 2. 下载和安装 1 2 3 4 5 # 下载DCGM安装包 wget https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2204/x86_64/datacenter-gpu-manager_3.3.6_amd64.deb # 安装DCGM sudo dpkg -i datacenter-gpu-manager_3.3.6_amd64.deb 3. 验证安装 安装完成后,系统会包含以下关键二进制文件: ...

2024年06月05日 · 3 min · 565 words · Miao16

Mellanox网卡常用命令详解

1. lspci - 检查本地PCI设备 检查本地的PCI设备,用于识别Mellanox网卡。 示例: lspci | grep -i mell 2. ofed_info - 检测OFED驱动版本 检测OFED驱动版本信息。 示例: ofed_info -s 3. ibstat - 查看IB网卡状态 查看本机的InfiniBand网卡状态。 4. mst - Mellanox软件管理工具 Mellanox软件管理工具,用来生成IB设备描述符,提供给其他命令使用。 示例: mst start 5. mlnx_perf - 查看端口收发流量 可以查看端口的收发流量。 参数说明: -i:选项接IB设备名称,如ib0, ib1… -t:每隔多久采集一次,单位秒 -c:采集多少次 6. ibswitches - 获取子网交换机信息 获取当前子网的所有交换机的信息。显示子网内所有识别到的交换机的GUID、端口数量、交换机名字、LID号等。 7. ibhosts - 获取子网HCA信息 获取当前子网的所有HCA的信息。显示子网内所有识别到的HCA的GUID、端口数量、交换机名字、LID号等。 8. ibnodes - 获取子网所有设备信息 获取当前子网的所有交换机和HCA的信息。显示子网内所有识别到的交换机和HCA的GUID、端口数量、交换机名字、LID号等。相当于ibhosts和ibswitches命令的合并。 9. ibnetdiscover - 扫描IB网络设备 扫描当前网络中的IB设备。输出内容包括GUID、端口号、LID号和节点描述以及交换机和HCA卡的连接关系。 ...

2024年02月07日 · 2 min · 228 words · Miao16

系统下屏蔽GPU显卡

1. 检查nvidia-smi状态 首先使用nvidia-smi命令查看当前GPU状态: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 ubuntu@ubuntu:~$ nvidia-smi +-----------------------------------------------------------------------------+ | NVIDIA-SMI 430.14 Driver Version: 430.14 CUDA Version: 10.2 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 GeForce RTX 208... Off | 00000000:1B:00.0 Off | N/A | | 22% 42C P0 63W / 250W | 0MiB / 11019MiB | 0% Default | +-------------------------------+----------------------+----------------------+ | 1 GeForce RTX 208... Off | 00000000:1C:00.0 Off | N/A | | 23% 43C P0 57W / 250W | 0MiB / 11019MiB | 0% Default | +-------------------------------+----------------------+----------------------+ | 2 GeForce RTX 208... Off | 00000000:1D:00.0 Off | N/A | | 23% 43C P0 62W / 250W | 0MiB / 11019MiB | 0% Default | +-------------------------------+----------------------+----------------------+ | 3 GeForce RTX 208... Off | 00000000:1E:00.0 Off | N/A | | 22% 42C P0 49W / 250W | 0MiB / 11019MiB | 0% Default | +-------------------------------+----------------------+----------------------+ | 4 GeForce RTX 208... Off | 00000000:89:00.0 Off | N/A | | 22% 41C P0 75W / 250W | 0MiB / 11019MiB | 0% Default | +-------------------------------+----------------------+----------------------+ | 5 GeForce RTX 208... Off | 00000000:8A:00.0 Off | N/A | | 22% 43C P0 63W / 250W | 0MiB / 11019MiB | 0% Default | +-------------------------------+----------------------+----------------------+ | 6 GeForce RTX 208... Off | 00000000:8B:00.0 Off | N/A | | 22% 41C P0 50W / 250W | 0MiB / 11019MiB | 1% Default | +-------------------------------+----------------------+----------------------+ | 7 GeForce RTX 208... Off | 00000000:8C:00.0 Off | N/A | | 20% 41C P0 54W / 250W | 0MiB / 11019MiB | 0% Default | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: GPU Memory | | GPU PID Type Process name Usage | |=============================================================================| | No running processes found | +-----------------------------------------------------------------------------+ 2. 模拟GPU移除操作 通过PCI设备管理接口手动移除特定GPU: ...

2023年11月20日 · 5 min · 922 words · Miao16

Ubuntu NVIDIA驱动部署

一. 基础环境准备 1. 系统优化 1. 锁定内核版本 防止系统自动升级导致驱动不兼容: 1 apt-mark hold linux-generic linux-image-generic linux-headers-generic 2. 关闭自动更新 1 2 sudo sed -i.bak 's/1/0/' /etc/apt/apt.conf.d/10periodic &> /dev/null sudo sed -i.bak 's/1/0/' /etc/apt/apt.conf.d/20auto-upgrades &> /dev/null 2. 依赖安装 安装编译必需的工具: 1 apt install gcc make -y 二. 驱动下载 1. NVIDIA Driver下载 访问NVIDIA官方驱动下载页面: 官方链接: https://www.nvidia.cn/drivers/lookup/ 根据您的GPU型号和操作系统版本选择合适的驱动版本。下载后会获得一个.run安装包,直接上传到服务器即可。 2. CUDA下载 访问NVIDIA CUDA下载页面: 官方链接: https://developer.nvidia.com/cuda-downloads 选择对应的操作系统、架构和版本,推荐下载.run格式的安装包,便于自定义安装选项。 3. NVIDIA Fabric Manager下载 注:仅SXM接口的GPU需要,PCIe接口的GPU不需要此组件。 1 wget https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2004/x86_64/nvidia-fabricmanager-535_535.154.05-1_amd64.deb 三. 驱动安装 1. NVIDIA Driver安装 使用以下命令安装NVIDIA驱动(根据实际版本号修改): ...

2023年08月24日 · 3 min · 482 words · Miao16

Docker调用ROCM

物理机部署 rocm 超算GPU平台 https://download.pytorch.org/whl/torch_stable.html source /opt/rocm/env.sh 或者 module load /root/dtkxxx env.sh 内容如下 1 2 3 4 5 6 7 8 9 10 11 12 13 14 #!/bin/bash # get DTKROOT by env.sh location DTKROOT="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)/$(basename "${BASH_SOURCE[0]}")" export DTKROOT=$(dirname $DTKROOT) export AMDGPU_TARGETS="gfx906" export ROCM_PATH=$DTKROOT export HIP_PATH=${ROCM_PATH}/hip export PATH=$ROCM_PATH/bin:$ROCM_PATH/opencl/bin:$ROCM_PATH/llvm/bin:$ROCM_PATH/hip/bin:$PATH export LD_LIBRARY_PATH=${ROCM_PATH}/lib:${ROCM_PATH}/opencl/lib:${ROCM_PATH}/lib64:$LD_LIBRARY_PATH export LD_LIBRARY_PATH=${ROCM_PATH}/hip/lib:${ROCM_PATH}/llvm/lib:$LD_LIBRARY_PATH export C_INCLUDE_PATH=${ROCM_PATH}/include:${ROCM_PATH}/llvm/include${C_INCLUDE_PATH:+:${C_INCLUDE_PATH}} export CPLUS_INCLUDE_PATH=${ROCM_PATH}/include:${ROCM_PATH}/llvm/include${CPLUS_INCLUDE_PATH:+:${CPLUS_INCLUDE_PATH}} rocm-smi 查看GPU docker 部署eth –gfx906 超算GPU平台 1 docker run -it --name testa1 --env-file ./env --device=/dev/dri --device=/dev/kfd jupyter:v1 /bin/bash 说明: ...

2022年03月05日 · 1 min · 172 words · Miao16