AMD Radeon Instinct MI50

Radeon Instinct MI50 是 AMD 于 2018年11月18日分布的专业显卡,该卡采用了 7nm 工艺制造(TSMC台积电代工),基于 Vega 20 图形处理器。(原来2018年台积电就已经代工了7nm工艺,而2024年底中美贸易站,美国禁止的7nm工艺居然是6年前的工艺)

AMD Radeon Instinct MI50 有两个内存版本,一个是 16GB HBM2内存,通过4096为显存接口连接;另一个规格是 32GB 内存。这两款AMD GPU在淘宝上非常廉价,我购买的 32GB 版本(1000元),甚至比 16GB规格 Tesla T10 (1400元),而从技术性能的纸面数据来看,MI50其实比T10要更好一些。这可能就是NVIDIA CUDA护城河的威力了,在AI领域,AMD的存在感非常低。

../../../_images/mi50.jpg

MI50外观

../../../_images/mi50_chip.jpg

MI50芯片

../../../_images/mi50_io.jpg

MI50接口

../../../_images/mi50_pcb_front.jpg

MI50主板前视图

../../../_images/mi50_pcb_back.jpg

MI50主板后视图

MI50规格

  • Vega 20 图形处理器芯片面积: 331 平方毫米

  • 132.3 亿个晶体管

  • 3840 个着色单元

  • 240 个纹理映射单元

  • 64 个 ROP(光栅操作单元)

  • GPU 运行频率为 1200 MHz,最高可提升至 1746 MHz

  • 显存频率为 1000 MHz

  • 2 个 8 针电源接口供电,最大额定功率为 300 W

  • 1 个 mini-DisplayPort 1.4a 接口

  • PCI-Express 4.0 x16 接口

备注

MI50的性能比 Tesla T10 更好一些,但是功耗翻倍(300W),所以散热和电源要求较高

AMD MI10 vs. Tesla T10 vs. P10

Instinct MI50

Tesla T10

Tesla P10

发布日

2018/11/18

2020

2016/9/13

系列

Radeon Instinct

Tesla

Tesla

接口

PCIe 4.0 x16

PCIe 3.0 x16

PCIe 3.0 x16

GPU

Vega 20

TU102

GP102

架构

GCN 5.1

Turing

Pascal

工艺

7 nm

12 nm

16 nm

晶体管数

13230 million

18600 million

11800 million

GPU裸片面积

331 mm²

754 mm²

471 mm²

时钟频率(Clock Speeds)

基准主频

1200 MHz

1065 MHz

1025 MHz

Boost主频

1746 MHz

1395 MHz

1493 MHz

内存主频

1000 MHz 2 Gbps effective

1575 MHz 12.6 Gbps

1808 MHz 14.5 Gbps

内存(Memory)

内存大小

16/ 32 GB

16 GB

24 GB

内存类型

HBM2

GDDR6

GDDR5X

内存总线

4096 bit

256 bit

384 bit

内存带宽

1.02 TB/s

403.2 GB/s

694.3 GB/s

渲染配置(Render Config)

着色单元(Shading Units)

3840

3072

3840

纹理映射单元(Texture Mapping Units/TMUs)

240

192

240

ROPs

64

96

96

SM Count

48

30

Tensor Cores

384

光线追踪RT Cores

60 Compute Units(CU)

48

L1 缓存(L1 Cache)

16 KB (per CU)

64 KB(per SM)

48 KB(per SM)

L2 缓存(L2 Cache)

6 MB

6 MB

3 MB

主板设计

主板插槽

双插槽

单插槽

单插槽

长度

267 mm

267 mm

267 mm

宽度

111 mm

97 mm

厚度

20 mm

20mm

TDP

300 W

150 W

250 W

建议电源

700 W

450 W

600 W

显示输出

1x mini-DisplayPort 1.4a

电源连接

2x 8-pin

1x 8-pin

1x 8-pin

主板编号

PG610 SKU 210

图形功能

DirectX

12 (12_1)

12 (12_1)

12 (12_1)

OpenGL

4.6

4.6

4.6

OpenCL

2.1

3.0

3.0

Vulkan

1.3

1.3

1.3

CUDA

7.5

6.1

Shader Model

6.7

6.8

6.4

理论性能

Pixel Rate

111.7 GPixel/s

89.28 GPixel/s

143.3 GPixel/s

Texture Rate

419.0 GTexel/s

312.5 GTexel/s

358.3 GTexel/s

FP16 (half) performance

26.82 TFLOPS (2:1)

20.00 TFLOPS (2:1)

179.2 GFLOPS (1:64)

FP32 (float) performance

13.41 TFLOPS

9.999 TFLOPS

11.47 TFLOPS

FP64 (double) performance

6.705 TFLOPS (1:2)

312.5 GFLOPS (1:32)

358.3 GFLOPS (1:32)

选择MI50的原因

  • 显存是同一档次的 Tesla T102倍 ,理论上可以运行更大参数的推理模型,也可能更适合训练微调

  • 7nm工艺其实比 Tesla T10 的12nm工艺要先进一代,这可是当前美国禁运的7nm技术,普通人居然能够用1kRMB体验(简直有点黑色幽默)

  • 当前主流的机器学习/大语言模型框架都已经支持 AMD 的 ROCm ,所以能够用来完成训练和推理:

    • MI50 是2017年的 Vega 系列,其微架构是 GCN 5.1,已经被RDNA架构淘汰,所以当前最新的ROCm 6.x 发布文档中已经申明不在支持 GCN 5代,也就是 不再明确支持 MI50

    • 不过根据Reddit的帖子 Interesting cheap GPU option: Instinct Mi50 有人说在ROCm 6.3.2 中仍然可以使用MI50 (实在不行我准备回退到ROCm 5.7.1版本,这个2023年10月14日的旧系列版本明确支持MI50)

  • 从技术参数来看,Intel Arc A750和MI50相当,但是据说Intel驱动现在优化还有差距,并且消费级Intel Arc A750只有8GB规格,难以满足机器学习的需求(Intel Arc A750是新品,但价格要达到1300元)

  • 当然最重要的原因是Radeon Instinct MI50 32GB太便宜了,感觉非常有性价比,虽然肯定会比 NVIDIA GPU 要折腾得多,甚至有可能软件支持上存在大坑。但是,这么低廉的价格以及当前官方软件还能够支持运行实现主流机器学习框架运行,也许真值得冒险一试

一些参考信息

  • Reddit: Instinct MI50 on consumer hardware

    • ROCm目前新版 6.4.0 支持MI60,由于MI60和MI50的芯片相同,所以虽然官方文档没有说支持MI50,但实际上只要支持MI60就会支持MI50

    • 当使用容器(LXC)时,物理主机只需要使用 --no-dkms 参数安装amdgpu模块,然后在容器中安装RPCm就可以在容器中使用GPU

    • 大概相当于NVIDIA RTX 3060的性能,比NVIDIA 3090慢2-4倍

    • 当使用qwen3 32B gptq int4是,使用2块32GB MI50,大概 35token/s; llama3 70B gptq int4 大约 15token/s

    • GitHub: nlzy/vllm-gfx906 提供了一个针对 AMD gfx906 GPU (即Radeon Vii/MI50/MI60)的 vLLM

实测性能

  • 通过 ollama 运行 Qwen2.5-coder qwen2.5-coder:32b-instruct-q6_K ,实测性能:

    • 大约 13+ tokens/s

    • 但是连续测试会降低到 10 tokens/s (原因待查)

我一共购买了2块 MI50 ,我准备后续同时使用测试更大规模模型,看看性能以及准确度

参考