AMD FirePro S7150 x2运算卡
AMD FirePro S7150 x2
是目前能够在淘宝上买到的非常廉价的AMD GPU计算卡,成本大约只有200+ RMB。
备注
根据网上信息查询,AMD GPU由于浮点计算由于同时代NVIDIA GPU,但是游戏性能较差,并且没有针对挖矿进行反制,导致很多矿场大量使用AMD显卡/计算卡进行挖矿。这可能也是矿难之后,流入市场的AMD显卡/计算卡价格低廉的原因,毕竟矿卡的使用寿命和稳定性存疑。
Advanced Tonga BIOS editing 矿工分享的有关AMD Tonga BIOS编辑来帮助稳定运行挖矿的blog
不过,出于学习的兴趣,以及我重组 HPE ProLiant DL380 Gen9服务器 之后希望有最低的二手硬件投入来实践学习,我准备入手一个AMD 矿卡来练习。
AMD FirePro S7150 x2
FirePro S7150 x2 是 AMD 于 2016 年 2 月 1 日推出的运算卡,基于Cloud Tau变体 Tonga
图形处理器:
芯片面积为 366 mm²,拥有 50 亿个晶体管
AMD 已禁用 FirePro S7150 x2 上的一些着色单元(虽然GPU和完全解锁的Radeon R9 285X相同)
结合了两个图形处理器 以提高性能 -- 每个 GPU 具有:
1792 个着色单元 (合计x2 = 3584)
112 个纹理映射单元 (合计x2 = 224)
32 个 ROP (合计x2 = 64)
GPU工作频率 920MHz
每个GPU配备:
8G GDDR5内存 (合计x2 = 16GB)
256位内存接口连接(合计x2 = 512位)
内存工作频率 1250MHz
这款图形加速卡实际上相当于2块 AMD FirePro S7150
合并:
AMD这种双GPU核心主要是为了降低制造成本,因为单个芯片面积越大成本越高
AMD的GPU采用了28nm工艺,比同一年发布的 Nvidia Tesla P10 GPU运算卡 (16nm)要落后2代,所以功耗上要大很多,不得不降低运行频率并合并两个GPU核心来获得接近的性能
双GPU核心带来另一个问题是分配到每个GPU的显存只有总体的1/2,也就是对操作系统而言,主机上就是安装了两块GPU
在机器学习中,单个GPU只有8G大大限制了大模型的运行参数,所以不利于训练和推理
跨GPU的通许会降低GPU的运算能力,猜测可能降低1/3



Nvidia Tesla P10 GPU运算卡 vs AMD FirePro S7159 x2
Tesla P10 |
FireFro S7150x2 |
GeForce GTX 1080 Ti |
|
---|---|---|---|
发布日 |
2016/9/13 |
2016/2/1 |
2017/3/10 |
系列 |
Tesla |
FirePro |
Tesla |
接口 |
PCIe 3.0 x16 |
PCIe 3.0 x16 |
PCIe 3.0 x16 |
GPU |
GP102 |
Tonga |
GP102 |
架构 |
Pascal |
GCN 3.0 |
Pascal |
工艺 |
16 nm |
28 nm |
16 nm |
晶体管数 |
11800 million |
5000 million |
11800 million |
GPU裸片面积 |
471 mm² |
366 mm² |
471 mm² |
基准主频 |
1025 MHz |
920 MHz |
1481 MHz |
Boost主频 |
1493 MHz |
1582 MHz |
|
内存主频 |
1808 MHz 14.5 Gbps |
1250 MHz5 Gbps effective |
1376 MHz 11 Gbps |
内存大小 |
24 GB |
8GB x2 |
11 GB |
内存类型 |
GDDR5X |
GDDR5 |
GDDR5X |
内存总线 |
384 bit |
256 bit x2 |
352 bit |
内存带宽 |
694.3 GB/s |
160.0 GB/s x2 |
484.4 GB/s |
着色单元 |
3840 |
1792 x2 |
3584 |
纹理映射单元 |
240 |
112 x2 |
224 |
ROP |
96 |
32 x2 |
88 |
L1 缓存 |
48 KB(per SM) |
16 KB (per CU) x2 |
48 KB(per SM) |
L2 缓存 |
3 MB |
512 KB x2 |
2.75 MB |
主板插槽 |
单插槽 |
双插槽 |
双插槽 |
长度 |
267 mm |
241 mm |
267 mm |
宽度 |
97 mm |
111 mm |
112 mm |
厚度 |
20 mm |
40 mm |
40 mm |
TDP |
250 W |
265 W |
250 W |
建议电源 |
600 W |
600 W |
600 W |
显示输出 |
无 |
无 |
1x HDMI 3x DisplayPort |
电源连接 |
1x 8-pin |
1x 6-pin + 1x 8-pin |
1x 6-pin + 1x 8-pin |
主板编号 |
PG610 SKU 210 |
C763 |
PG611 SKU 50 |
DirectX |
12 (12_1) |
C763 |
12 (12_1) |
OpenGL |
4.6 |
4.6 |
4.6 |
OpenCL |
3.0 |
2.1 |
3.0 |
Vulkan |
1.3 |
1.2.170 |
1.3 |
CUDA |
6.1 |
6.1 |
|
Shader Model |
6.4 |
6.5 |
6.4 |
Pixel Rate |
143.3 GPixel/s |
29.44 GPixel/s x2 |
139.2 GPixel/s |
Texture Rate |
358.3 GTexel/s |
103.0 GTexel/s x2 |
354.4 GTexel/s |
FP16 (half) performance |
179.2 GFLOPS (1:64) |
3.297 TFLOPS (1:1) x2 |
177.2 GFLOPS (1:64) |
FP32 (float) performance |
11.47 TFLOPS |
3.297 TFLOPS x2 |
11.34 TFLOPS |
FP64 (double) performance |
358.3 GFLOPS (1:32) |
206.1 GFLOPS (1:16) x2 |
354.4 GFLOPS (1:32) |
从理论数据来看 AMD FirePro S7159 x2
的 FP16
半精度性能要远好于 Nvidia Tesla P10 GPU运算卡 ,感觉在训练和推理上应该不差。不过,现在深度学习都针对N卡优化,有可能理论数据并不能代表性能。
Pytorch 最新2.0版本已经宣布支持AMD GPU,但是不清楚这么早期的卡是否能够支持,有待实践。
资源
AMD官方 FirePro™ S7150 X2 Drivers & Support / FirePro™ S7150 X2 驱动程序和支持
官方提供的支持不同虚拟化平台的驱动,不过比较古早,不确定是否还能继续使用
AMD ROCm Software 官方Portal
-
-
Linux® Drivers for AMD Radeon™ and Radeon PRO™ Graphics 驱动下载(仓库配置包),可以在线安装AMD ROCm
-
-
AMD MxGPU(基于SR-IOV的GPU共享技术) 相关
Proxmox 7.2 AMD FirePro s7150 MxGPU vGPU passthrough 提到的 GIM Fork Repo GitHub: Hardconkers/MxGPU-Virtualization 验证支持kernel 6.8,或许是一个思路(AMD似乎没有继续开源?)