物理机部署 rocm 超算GPU平台#
https://download.pytorch.org/whl/torch_stable.html
source /opt/rocm/env.sh 或者 module load /root/dtkxxx
env.sh 内容如下
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
#!/bin/bash
# get DTKROOT by env.sh location
DTKROOT="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)/$(basename "${BASH_SOURCE[0]}")"
export DTKROOT=$(dirname $DTKROOT)
export AMDGPU_TARGETS="gfx906"
export ROCM_PATH=$DTKROOT
export HIP_PATH=${ROCM_PATH}/hip
export PATH=$ROCM_PATH/bin:$ROCM_PATH/opencl/bin:$ROCM_PATH/llvm/bin:$ROCM_PATH/hip/bin:$PATH
export LD_LIBRARY_PATH=${ROCM_PATH}/lib:${ROCM_PATH}/opencl/lib:${ROCM_PATH}/lib64:$LD_LIBRARY_PATH
export LD_LIBRARY_PATH=${ROCM_PATH}/hip/lib:${ROCM_PATH}/llvm/lib:$LD_LIBRARY_PATH
export C_INCLUDE_PATH=${ROCM_PATH}/include:${ROCM_PATH}/llvm/include${C_INCLUDE_PATH:+:${C_INCLUDE_PATH}}
export CPLUS_INCLUDE_PATH=${ROCM_PATH}/include:${ROCM_PATH}/llvm/include${CPLUS_INCLUDE_PATH:+:${CPLUS_INCLUDE_PATH}}
|
rocm-smi 查看GPU
docker 部署eth –gfx906 超算GPU平台#
1
|
docker run -it --name testa1 --env-file ./env --device=/dev/dri --device=/dev/kfd jupyter:v1 /bin/bash
|
说明:
--device
指定GPU驱动路径
--env-file
指定env文件,本文件内声明代理节点,用于代理上网
env文件内容如下:
1
2
3
|
proxy=http://sugonhsq:HfJSZ*j*@10.10.101.4:3333
http_proxy=http://sugonhsq:HfJSZ*j*@10.10.101.4:3333
https_proxy=http://sugonhsq:HfJSZ*j*@10.10.101.4:3333
|
调用redmini:
--benchmark
会模拟一个服务器,不把地址发送出去
1
|
./teamredminer -a ethash --benchmark -o stratum+ssl://156.226.17.84:6677 -u 0x9Eefd5CB1CD01574bac349a9a92b01064FEF543C -p x
|
FAQ#
docker 中无法调用opencl#
说明:
- opencl路径:
/opt/rocm/opencl/bin/clinfo
- 设置变量
PATH=$PATH:/opt/rocm/opencl/bin/
[root@localhost ~]# rocm-smi
显示 “There are no card”
问题处理:
1. 无法使用clinfo 查看opencl平台#
解决办法:docker 镜像中创建一个文件路径如下
1
2
|
mkdir -p /etc/OpenCL/vendors/
vim /etc/OpenCL/vendors/amdocl64.icd
|
文件内容:
2. 创建库文件后还是报错,需要声明变量#
1
2
|
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/dtk/opencl/lib
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/rocm/opencl/lib
|
配置:
teamredminer - 声明一下opencl的路径
3. “there are no card"报错#
更新内核后和驱动不适配,不能更新内核
曙光方德系统查看显卡状态#


hy-smi 和 rocm-smi 的区别#
hy-smi:
- hy-smi就是封装的rocm-smi
- 可以这样理解dtk就是把rocm封装了下,在dcu1-2号都能用
rocm-smi:
- 不过rocm-smi 是直接调用的 rocm超算平台
- 本质上没什区别
sugon方德系统:
内核版本 957 如下图
