AMD Radeon Instinct MI50

Radeon Instinct MI50 是 AMD 于 2018年11月18日分布的专业显卡，该卡采用了 7nm 工艺制造(TSMC台积电代工)，基于 Vega 20 图形处理器。(原来2018年台积电就已经代工了7nm工艺，而2024年底中美贸易站，美国禁止的7nm工艺居然是6年前的工艺)

AMD Radeon Instinct MI50 有两个内存版本，一个是 16GB HBM2内存，通过4096为显存接口连接；另一个规格是 32GB 内存。这两款AMD GPU在淘宝上非常廉价，我购买的 32GB 版本(1000元)，甚至比 16GB规格 Tesla T10 (1400元)，而从技术性能的纸面数据来看，MI50其实比T10要更好一些。这可能就是NVIDIA CUDA护城河的威力了，在AI领域，AMD的存在感非常低。

../../../_images/mi50_chip.jpg — MI50芯片

../../../_images/mi50_pcb_front.jpg — MI50主板前视图

../../../_images/mi50_pcb_back.jpg — MI50主板后视图

MI50规格

Vega 20 图形处理器芯片面积: 331 平方毫米
132.3 亿个晶体管
3840 个着色单元
240 个纹理映射单元
64 个 ROP（光栅操作单元）
GPU 运行频率为 1200 MHz，最高可提升至 1746 MHz
显存频率为 1000 MHz
2 个 8 针电源接口供电，最大额定功率为 300 W
1 个 mini-DisplayPort 1.4a 接口
PCI-Express 4.0 x16 接口

备注

MI50的性能比 Tesla T10 更好一些，但是功耗翻倍(300W)，所以散热和电源要求较高

AMD MI10 vs. Tesla T10 vs. P10
	Instinct MI50	Tesla T10	Tesla P10
发布日	2018/11/18	2020	2016/9/13
系列	Radeon Instinct	Tesla	Tesla
接口	PCIe 4.0 x16	PCIe 3.0 x16	PCIe 3.0 x16
GPU	Vega 20	TU102	GP102
架构	GCN 5.1	Turing	Pascal
工艺	7 nm	12 nm	16 nm
晶体管数	13230 million	18600 million	11800 million
GPU裸片面积	331 mm²	754 mm²	471 mm²
时钟频率(Clock Speeds)
基准主频	`1200 MHz`	1065 MHz	1025 MHz
Boost主频	`1746 MHz`	1395 MHz	1493 MHz
内存主频	1000 MHz 2 Gbps effective	1575 MHz 12.6 Gbps	`1808 MHz 14.5 Gbps`
内存(Memory)
内存大小	16/ `32 GB`	16 GB	24 GB
内存类型	`HBM2`	GDDR6	GDDR5X
内存总线	`4096 bit`	256 bit	384 bit
内存带宽	`1.02 TB/s`	403.2 GB/s	694.3 GB/s
渲染配置(Render Config)
着色单元(Shading Units)	`3840`	3072	3840
纹理映射单元(Texture Mapping Units/TMUs)	`240`	192	240
ROPs	64	`96`	96
SM Count		48	30
Tensor Cores		`384`
光线追踪RT Cores	60 Compute Units(CU)	`48`
L1 缓存(L1 Cache)	16 KB (per CU)	64 KB(per SM)	48 KB(per SM)
L2 缓存(L2 Cache)	6 MB	6 MB	3 MB
主板设计
主板插槽	双插槽	单插槽	单插槽
长度	267 mm	267 mm	267 mm
宽度		111 mm	97 mm
厚度		20 mm	20mm
TDP	300 W	150 W	250 W
建议电源	700 W	450 W	600 W
显示输出	1x mini-DisplayPort 1.4a	无	无
电源连接	2x 8-pin	1x 8-pin	1x 8-pin
主板编号			PG610 SKU 210
图形功能
DirectX	12 (12_1)	12 (12_1)	12 (12_1)
OpenGL	4.6	4.6	4.6
OpenCL	2.1	3.0	3.0
Vulkan	1.3	1.3	1.3
CUDA		7.5	6.1
Shader Model	6.7	6.8	6.4
理论性能
Pixel Rate	111.7 GPixel/s	89.28 GPixel/s	`143.3 GPixel/s`
Texture Rate	`419.0 GTexel/s`	312.5 GTexel/s	358.3 GTexel/s
FP16 (half) performance	`26.82 TFLOPS (2:1)`	20.00 TFLOPS (2:1)	179.2 GFLOPS (1:64)
FP32 (float) performance	`13.41 TFLOPS`	9.999 TFLOPS	11.47 TFLOPS
FP64 (double) performance	`6.705 TFLOPS (1:2)`	312.5 GFLOPS (1:32)	358.3 GFLOPS (1:32)

选择MI50的原因

显存是同一档次的 Tesla T10 的 2倍，理论上可以运行更大参数的推理模型，也可能更适合训练微调
7nm工艺其实比 Tesla T10 的12nm工艺要先进一代，这可是当前美国禁运的7nm技术，普通人居然能够用1kRMB体验(简直有点黑色幽默)
当前主流的机器学习/大语言模型框架都已经支持 AMD 的 ROCm ，所以能够用来完成训练和推理:
- MI50 是2017年的 Vega 系列，其微架构是 GCN 5.1，已经被RDNA架构淘汰，所以当前最新的ROCm 6.x 发布文档中已经申明不在支持 GCN 5代，也就是 不再明确支持 MI50
- 不过根据Reddit的帖子 Interesting cheap GPU option: Instinct Mi50 有人说在ROCm 6.3.2 中仍然可以使用MI50 (实在不行我准备回退到ROCm 5.7.1版本，这个2023年10月14日的旧系列版本明确支持MI50)
从技术参数来看，Intel Arc A750和MI50相当，但是据说Intel驱动现在优化还有差距，并且消费级Intel Arc A750只有8GB规格，难以满足机器学习的需求(Intel Arc A750是新品，但价格要达到1300元)
当然最重要的原因是Radeon Instinct MI50 32GB太便宜了，感觉非常有性价比，虽然肯定会比 NVIDIA GPU 要折腾得多，甚至有可能软件支持上存在大坑。但是，这么低廉的价格以及当前官方软件还能够支持运行实现主流机器学习框架运行，也许真值得冒险一试

一些参考信息

Reddit: Instinct MI50 on consumer hardware
- ROCm目前新版 6.4.0 支持MI60，由于MI60和MI50的芯片相同，所以虽然官方文档没有说支持MI50，但实际上只要支持MI60就会支持MI50
- 当使用容器(LXC)时，物理主机只需要使用 --no-dkms 参数安装amdgpu模块，然后在容器中安装RPCm就可以在容器中使用GPU
- 大概相当于NVIDIA RTX 3060的性能，比NVIDIA 3090慢2-4倍
- 当使用qwen3 32B gptq int4是，使用2块32GB MI50，大概 35token/s; llama3 70B gptq int4 大约 15token/s
- GitHub: nlzy/vllm-gfx906 提供了一个针对 AMD gfx906 GPU (即Radeon Vii/MI50/MI60)的 vLLM

实测性能

通过 ollama 运行 Qwen2.5-coder qwen2.5-coder:32b-instruct-q6_K ，实测性能:
- 大约 13+ tokens/s
- 但是连续测试会降低到 10 tokens/s (原因待查)

我一共购买了2块 MI50 ，我准备后续同时使用测试更大规模模型，看看性能以及准确度