AMD Radeon Instinct MI50
Radeon Instinct MI50 是 AMD 于 2018年11月18日分布的专业显卡,该卡采用了 7nm 工艺制造(TSMC台积电代工),基于 Vega 20 图形处理器。(原来2018年台积电就已经代工了7nm工艺,而2024年底中美贸易站,美国禁止的7nm工艺居然是6年前的工艺)
AMD Radeon Instinct MI50 有两个内存版本,一个是 16GB HBM2内存,通过4096为显存接口连接;另一个规格是 32GB 内存。这两款AMD GPU在淘宝上非常廉价,我购买的 32GB 版本(1000元),甚至比 16GB规格 Tesla T10 (1400元),而从技术性能的纸面数据来看,MI50其实比T10要更好一些。这可能就是NVIDIA CUDA护城河的威力了,在AI领域,AMD的存在感非常低。

MI50外观

MI50芯片

MI50接口

MI50主板前视图

MI50主板后视图
MI50规格
Vega 20 图形处理器芯片面积: 331 平方毫米
132.3 亿个晶体管
3840 个着色单元
240 个纹理映射单元
64 个 ROP(光栅操作单元)
GPU 运行频率为 1200 MHz,最高可提升至 1746 MHz
显存频率为 1000 MHz
2 个 8 针电源接口供电,最大额定功率为 300 W
1 个 mini-DisplayPort 1.4a 接口
PCI-Express 4.0 x16 接口
备注
MI50的性能比 Tesla T10 更好一些,但是功耗翻倍(300W),所以散热和电源要求较高
Instinct MI50 |
Tesla T10 |
Tesla P10 |
|
---|---|---|---|
发布日 |
2018/11/18 |
2020 |
2016/9/13 |
系列 |
Radeon Instinct |
Tesla |
Tesla |
接口 |
PCIe 4.0 x16 |
PCIe 3.0 x16 |
PCIe 3.0 x16 |
GPU |
Vega 20 |
TU102 |
GP102 |
架构 |
GCN 5.1 |
Turing |
Pascal |
工艺 |
7 nm |
12 nm |
16 nm |
晶体管数 |
13230 million |
18600 million |
11800 million |
GPU裸片面积 |
331 mm² |
754 mm² |
471 mm² |
时钟频率(Clock Speeds) |
|||
基准主频 |
|
1065 MHz |
1025 MHz |
Boost主频 |
|
1395 MHz |
1493 MHz |
内存主频 |
1000 MHz 2 Gbps effective |
1575 MHz 12.6 Gbps |
|
内存(Memory) |
|||
内存大小 |
16/ |
16 GB |
24 GB |
内存类型 |
|
GDDR6 |
GDDR5X |
内存总线 |
|
256 bit |
384 bit |
内存带宽 |
|
403.2 GB/s |
694.3 GB/s |
渲染配置(Render Config) |
|||
着色单元(Shading Units) |
|
3072 |
3840 |
纹理映射单元(Texture Mapping Units/TMUs) |
|
192 |
240 |
ROPs |
64 |
|
96 |
SM Count |
48 |
30 |
|
Tensor Cores |
|
||
光线追踪RT Cores |
60 Compute Units(CU) |
|
|
L1 缓存(L1 Cache) |
16 KB (per CU) |
64 KB(per SM) |
48 KB(per SM) |
L2 缓存(L2 Cache) |
6 MB |
6 MB |
3 MB |
主板设计 |
|||
主板插槽 |
双插槽 |
单插槽 |
单插槽 |
长度 |
267 mm |
267 mm |
267 mm |
宽度 |
111 mm |
97 mm |
|
厚度 |
20 mm |
20mm |
|
TDP |
300 W |
150 W |
250 W |
建议电源 |
700 W |
450 W |
600 W |
显示输出 |
1x mini-DisplayPort 1.4a |
无 |
无 |
电源连接 |
2x 8-pin |
1x 8-pin |
1x 8-pin |
主板编号 |
PG610 SKU 210 |
||
图形功能 |
|||
DirectX |
12 (12_1) |
12 (12_1) |
12 (12_1) |
OpenGL |
4.6 |
4.6 |
4.6 |
OpenCL |
2.1 |
3.0 |
3.0 |
Vulkan |
1.3 |
1.3 |
1.3 |
CUDA |
7.5 |
6.1 |
|
Shader Model |
6.7 |
6.8 |
6.4 |
理论性能 |
|||
Pixel Rate |
111.7 GPixel/s |
89.28 GPixel/s |
|
Texture Rate |
|
312.5 GTexel/s |
358.3 GTexel/s |
FP16 (half) performance |
|
20.00 TFLOPS (2:1) |
179.2 GFLOPS (1:64) |
FP32 (float) performance |
|
9.999 TFLOPS |
11.47 TFLOPS |
FP64 (double) performance |
|
312.5 GFLOPS (1:32) |
358.3 GFLOPS (1:32) |
选择MI50的原因
显存是同一档次的 Tesla T10 的 2倍 ,理论上可以运行更大参数的推理模型,也可能更适合训练微调
7nm工艺其实比 Tesla T10 的12nm工艺要先进一代,这可是当前美国禁运的7nm技术,普通人居然能够用1kRMB体验(简直有点黑色幽默)
当前主流的机器学习/大语言模型框架都已经支持 AMD 的 ROCm ,所以能够用来完成训练和推理:
MI50
是2017年的 Vega 系列,其微架构是 GCN 5.1,已经被RDNA架构淘汰,所以当前最新的ROCm 6.x 发布文档中已经申明不在支持 GCN 5代,也就是 不再明确支持 MI50不过根据Reddit的帖子 Interesting cheap GPU option: Instinct Mi50 有人说在ROCm 6.3.2 中仍然可以使用MI50 (实在不行我准备回退到ROCm 5.7.1版本,这个2023年10月14日的旧系列版本明确支持MI50)
从技术参数来看,Intel Arc A750和MI50相当,但是据说Intel驱动现在优化还有差距,并且消费级Intel Arc A750只有8GB规格,难以满足机器学习的需求(Intel Arc A750是新品,但价格要达到1300元)
当然最重要的原因是Radeon Instinct MI50 32GB太便宜了,感觉非常有性价比,虽然肯定会比 NVIDIA GPU 要折腾得多,甚至有可能软件支持上存在大坑。但是,这么低廉的价格以及当前官方软件还能够支持运行实现主流机器学习框架运行,也许真值得冒险一试
一些参考信息
Reddit: Instinct MI50 on consumer hardware
ROCm目前新版
6.4.0
支持MI60,由于MI60和MI50的芯片相同,所以虽然官方文档没有说支持MI50,但实际上只要支持MI60就会支持MI50当使用容器(LXC)时,物理主机只需要使用
--no-dkms
参数安装amdgpu模块,然后在容器中安装RPCm就可以在容器中使用GPU大概相当于NVIDIA RTX 3060的性能,比NVIDIA 3090慢2-4倍
当使用qwen3 32B gptq int4是,使用2块32GB MI50,大概 35token/s; llama3 70B gptq int4 大约 15token/s
GitHub: nlzy/vllm-gfx906 提供了一个针对 AMD gfx906 GPU (即Radeon Vii/MI50/MI60)的 vLLM
实测性能
通过 ollama 运行 Qwen2.5-coder
qwen2.5-coder:32b-instruct-q6_K
,实测性能:大约
13+
tokens/s但是连续测试会降低到
10
tokens/s (原因待查)
我一共购买了2块 MI50
,我准备后续同时使用测试更大规模模型,看看性能以及准确度