物理机部署 rocm 超算GPU平台

https://download.pytorch.org/whl/torch_stable.html

source /opt/rocm/env.sh 或者 module load /root/dtkxxx

env.sh 内容如下

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
#!/bin/bash

# get DTKROOT by env.sh location
DTKROOT="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)/$(basename "${BASH_SOURCE[0]}")"

export DTKROOT=$(dirname $DTKROOT)
export AMDGPU_TARGETS="gfx906"
export ROCM_PATH=$DTKROOT
export HIP_PATH=${ROCM_PATH}/hip
export PATH=$ROCM_PATH/bin:$ROCM_PATH/opencl/bin:$ROCM_PATH/llvm/bin:$ROCM_PATH/hip/bin:$PATH
export LD_LIBRARY_PATH=${ROCM_PATH}/lib:${ROCM_PATH}/opencl/lib:${ROCM_PATH}/lib64:$LD_LIBRARY_PATH
export LD_LIBRARY_PATH=${ROCM_PATH}/hip/lib:${ROCM_PATH}/llvm/lib:$LD_LIBRARY_PATH
export C_INCLUDE_PATH=${ROCM_PATH}/include:${ROCM_PATH}/llvm/include${C_INCLUDE_PATH:+:${C_INCLUDE_PATH}}
export CPLUS_INCLUDE_PATH=${ROCM_PATH}/include:${ROCM_PATH}/llvm/include${CPLUS_INCLUDE_PATH:+:${CPLUS_INCLUDE_PATH}}

rocm-smi 查看GPU

docker 部署eth –gfx906 超算GPU平台

1
docker run -it --name testa1 --env-file ./env --device=/dev/dri --device=/dev/kfd jupyter:v1 /bin/bash

说明:

  • --device 指定GPU驱动路径
  • --env-file 指定env文件,本文件内声明代理节点,用于代理上网

env文件内容如下:

1
2
3
proxy=http://sugonhsq:HfJSZ*j*@10.10.101.4:3333
http_proxy=http://sugonhsq:HfJSZ*j*@10.10.101.4:3333
https_proxy=http://sugonhsq:HfJSZ*j*@10.10.101.4:3333

调用redmini:

--benchmark 会模拟一个服务器,不把地址发送出去

1
./teamredminer -a ethash --benchmark -o stratum+ssl://156.226.17.84:6677 -u 0x9Eefd5CB1CD01574bac349a9a92b01064FEF543C -p x

FAQ

docker 中无法调用opencl

说明:

  1. opencl路径:/opt/rocm/opencl/bin/clinfo
  2. 设置变量 PATH=$PATH:/opt/rocm/opencl/bin/
  3. [root@localhost ~]# rocm-smi 显示 “There are no card”

问题处理:

1. 无法使用clinfo 查看opencl平台

解决办法:docker 镜像中创建一个文件路径如下

1
2
mkdir -p /etc/OpenCL/vendors/
vim /etc/OpenCL/vendors/amdocl64.icd

文件内容:

1
libamdocl64.so

2. 创建库文件后还是报错,需要声明变量

1
2
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/dtk/opencl/lib
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/rocm/opencl/lib

配置:

1
permitRootLogin yes

teamredminer - 声明一下opencl的路径

3. “there are no card"报错

更新内核后和驱动不适配,不能更新内核

曙光方德系统查看显卡状态

曙光方德系统显卡状态1

曙光方德系统显卡状态2

差别

hy-smi 和 rocm-smi 的区别

hy-smi:

  • hy-smi就是封装的rocm-smi
  • 可以这样理解dtk就是把rocm封装了下,在dcu1-2号都能用

rocm-smi:

  • 不过rocm-smi 是直接调用的 rocm超算平台
  • 本质上没什区别

sugon方德系统:

内核版本 957 如下图

内核版本信息