Nvidia Tesla P4 GPU运算卡
eGPU(外置GPU)使用Tesla P4
很久以前我在考虑如何让自己能够移动工作中使用GPU来完成 Machine Learning 学习,考虑使用外置GPU(eGPU):
可以用自己的笔记本来完成机器学习,不需要重复投资主机,例如 HPE ProLiant DL360 Gen9服务器
可以随身携带 移动工作
不过,常规显卡非常沉重庞大,功耗惊人,所以上述想法可能性较低。
NVIDIA的低功耗产品线 P4/T4/A2 给这个想法带来一些希望:
淘宝上能够买到比较廉价的
OCuLink
Dock,大约只需要300RMB二手的P4价格较低,虽然显存和主频受限,但是低功耗(70W)也为配合树莓派运行带来便利(省电呀)
我发现类似的想法其实国外网友已经有一些实践案例,例如 Jeff Geerling博客: #gpu 有几篇关于外置显卡(eGPU)的文章,提供了借鉴。而我的想法是不求最高性能,力求在有限的功耗下实现基本的 LLM 大型语言模型 推理。
最终我购买了 Tesla P4 + 散热风扇,和 Nvidia Tesla P10 GPU运算卡 一同安装在 纳斯NASSE C246 ITX主板 所使用的ITX小机箱中:
NVIDIA Tesla P10具备
24GB
显存,能够运行较大规模的LLM (deepseek-r1 32b
),连接 纳斯NASSE C246 ITX主板 的PCIe插槽,通过 FreeBSD 构建一个 FreeBSD机器学习NVIDIA Tesla P4低功耗但 INT8 性能卓越,高达
22 TOPS
(适合推理场景),通过OCuLink
连接 树莓派Raspberry Pi 5 用于AI生图和尝试边缘推理
NVIDIA Tesla P4
Tesla P10 |
Tesla P4 |
|
---|---|---|
发布日 |
2016/9/13 |
2016/9/13 |
系列 |
Tesla |
Tesla |
接口 |
PCIe 3.0 x16 |
PCIe 3.0 x16 |
GPU |
GP102 |
|
架构 |
Pascal |
Pascal |
工艺 |
16 nm |
16 nm |
晶体管数 |
118亿 |
|
GPU裸片面积 |
471 mm² |
|
基准主频 |
1025 MHz |
|
Boost主频 |
1493 MHz |
|
内存主频 |
1808 MHz 14.5 Gbps |
|
内存大小 |
24 GB |
|
内存类型 |
GDDR5X |
|
内存总线 |
384 bit |
|
内存带宽 |
694.3 GB/s |
|
着色单元 |
3840 |
|
纹理映射单元 |
240 |
|
ROP |
96 |
|
L1 缓存 |
48 KB(per SM) |
|
L2 缓存 |
3 MB |
|
主板插槽 |
单插槽 |
单插槽 |
长度 |
267 mm |
|
宽度 |
97 mm |
|
厚度 |
20 mm |
|
TDP |
250 W |
|
建议电源 |
600 W |
|
显示输出 |
无 |
无 |
电源连接 |
1x 8-pin |
|
主板编号 |
PG610 SKU 210 |
PG414 SKU 200 |
DirectX |
12 (12_1) |
12 (12_1) |
OpenGL |
4.6 |
4.6 |
OpenCL |
3.0 |
3.0 |
Vulkan |
1.3 |
1.3 |
CUDA |
6.1 |
6.1 |
Shader Model |
6.4 |
6.8 |
Pixel Rate |
143.3 GPixel/s |
|
Texture Rate |
358.3 GTexel/s |
|
FP16 (half) performance |
179.2 GFLOPS (1:64) |
|
FP32 (float) performance |
11.47 TFLOPS |
|
FP64 (double) performance |
358.3 GFLOPS (1:32) |
|