AMD FirePro S7150 x2运算卡

AMD FirePro S7150 x2 是目前能够在淘宝上买到的非常廉价的AMD GPU计算卡,成本大约只有200+ RMB。

备注

根据网上信息查询,AMD GPU由于浮点计算由于同时代NVIDIA GPU,但是游戏性能较差,并且没有针对挖矿进行反制,导致很多矿场大量使用AMD显卡/计算卡进行挖矿。这可能也是矿难之后,流入市场的AMD显卡/计算卡价格低廉的原因,毕竟矿卡的使用寿命和稳定性存疑。

Advanced Tonga BIOS editing 矿工分享的有关AMD Tonga BIOS编辑来帮助稳定运行挖矿的blog

不过,出于学习的兴趣,以及我重组 HPE ProLiant DL380 Gen9服务器 之后希望有最低的二手硬件投入来实践学习,我准备入手一个AMD 矿卡来练习。

AMD FirePro S7150 x2

FirePro S7150 x2 是 AMD 于 2016 年 2 月 1 日推出的运算卡,基于Cloud Tau变体 Tonga 图形处理器:

  • 芯片面积为 366 mm²,拥有 50 亿个晶体管

  • AMD 已禁用 FirePro S7150 x2 上的一些着色单元(虽然GPU和完全解锁的Radeon R9 285X相同)

  • 结合了两个图形处理器 以提高性能 -- 每个 GPU 具有:

    • 1792 个着色单元 (合计x2 = 3584)

    • 112 个纹理映射单元 (合计x2 = 224)

    • 32 个 ROP (合计x2 = 64)

    • GPU工作频率 920MHz

  • 每个GPU配备:

    • 8G GDDR5内存 (合计x2 = 16GB)

    • 256位内存接口连接(合计x2 = 512位)

    • 内存工作频率 1250MHz

这款图形加速卡实际上相当于2块 AMD FirePro S7150 合并:

  • AMD这种双GPU核心主要是为了降低制造成本,因为单个芯片面积越大成本越高

  • AMD的GPU采用了28nm工艺,比同一年发布的 Nvidia Tesla P10 GPU运算卡 (16nm)要落后2代,所以功耗上要大很多,不得不降低运行频率并合并两个GPU核心来获得接近的性能

  • 双GPU核心带来另一个问题是分配到每个GPU的显存只有总体的1/2,也就是对操作系统而言,主机上就是安装了两块GPU

    • 在机器学习中,单个GPU只有8G大大限制了大模型的运行参数,所以不利于训练和推理

    • 跨GPU的通许会降低GPU的运算能力,猜测可能降低1/3

../../../_images/amd_firepro_s7150x2_front.jpg
../../../_images/amd_firepro_s7150x2_bottom.jpg
../../../_images/amd_firepro_s7150x2_back.jpg

Nvidia Tesla P10 GPU运算卡 vs AMD FirePro S7159 x2

Tesla P10 vs. FirePro S7159 x2 vs. GeForce GTX 1080 Ti

Tesla P10

FireFro S7150x2

GeForce GTX 1080 Ti

发布日

2016/9/13

2016/2/1

2017/3/10

系列

Tesla

FirePro

Tesla

接口

PCIe 3.0 x16

PCIe 3.0 x16

PCIe 3.0 x16

GPU

GP102

Tonga

GP102

架构

Pascal

GCN 3.0

Pascal

工艺

16 nm

28 nm

16 nm

晶体管数

11800 million

5000 million

11800 million

GPU裸片面积

471 mm²

366 mm²

471 mm²

基准主频

1025 MHz

920 MHz

1481 MHz

Boost主频

1493 MHz

1582 MHz

内存主频

1808 MHz 14.5 Gbps

1250 MHz5 Gbps effective

1376 MHz 11 Gbps

内存大小

24 GB

8GB x2

11 GB

内存类型

GDDR5X

GDDR5

GDDR5X

内存总线

384 bit

256 bit x2

352 bit

内存带宽

694.3 GB/s

160.0 GB/s x2

484.4 GB/s

着色单元

3840

1792 x2

3584

纹理映射单元

240

112 x2

224

ROP

96

32 x2

88

L1 缓存

48 KB(per SM)

16 KB (per CU) x2

48 KB(per SM)

L2 缓存

3 MB

512 KB x2

2.75 MB

主板插槽

单插槽

双插槽

双插槽

长度

267 mm

241 mm

267 mm

宽度

97 mm

111 mm

112 mm

厚度

20 mm

40 mm

40 mm

TDP

250 W

265 W

250 W

建议电源

600 W

600 W

600 W

显示输出

1x HDMI 3x DisplayPort

电源连接

1x 8-pin

1x 6-pin + 1x 8-pin

1x 6-pin + 1x 8-pin

主板编号

PG610 SKU 210

C763

PG611 SKU 50

DirectX

12 (12_1)

C763

12 (12_1)

OpenGL

4.6

4.6

4.6

OpenCL

3.0

2.1

3.0

Vulkan

1.3

1.2.170

1.3

CUDA

6.1

6.1

Shader Model

6.4

6.5

6.4

Pixel Rate

143.3 GPixel/s

29.44 GPixel/s x2

139.2 GPixel/s

Texture Rate

358.3 GTexel/s

103.0 GTexel/s x2

354.4 GTexel/s

FP16 (half) performance

179.2 GFLOPS (1:64)

3.297 TFLOPS (1:1) x2

177.2 GFLOPS (1:64)

FP32 (float) performance

11.47 TFLOPS

3.297 TFLOPS x2

11.34 TFLOPS

FP64 (double) performance

358.3 GFLOPS (1:32)

206.1 GFLOPS (1:16) x2

354.4 GFLOPS (1:32)

从理论数据来看 AMD FirePro S7159 x2FP16 半精度性能要远好于 Nvidia Tesla P10 GPU运算卡 ,感觉在训练和推理上应该不差。不过,现在深度学习都针对N卡优化,有可能理论数据并不能代表性能。

Pytorch 最新2.0版本已经宣布支持AMD GPU,但是不清楚这么早期的卡是否能够支持,有待实践。

资源

参考