NVIDIA H100
NVIDIA H100 Tensor Core GPU
基于Hopper架构,是第九代数据中心GPU:
基于5nm工艺
GH100图形处理器
Hopper架构
800亿晶体管
两种接口形式
PCIe Gen5: 连接高性能x86 CPUs以及SmartNICs/DPUs(Data Processing Units)
NVIDIA BlueField-3 DPUs for 400 Gb/s Ethernet
NDR (Next Data Rate) 400 Gb/s InfiniBand networking acceleration
SXM5
内存带宽: 2 TB/s
支持 Sigle Root I/O Virtualization(SR-IOV)
单PCIe连接的GPU虚拟化成多个处理器或虚拟机
从一个SR-IOV PCIe连接的GPU虚拟出的VF/PF 能够直接通过NVLink访问对端GPU
Transformer引擎
软件和定制的 NVIDIA Hopper Tensor Core 技术,加速基于 Transformer 构建的模型的训练
动态精度: 定制的、NVIDIA 调校的启发式算法可以实现 FP8 和 FP16 之间动态选择,并自动处理每层中这些精度之间的re-casting 和 scaling
针对PyTorch 代码无缝集成的自动化混合精度 API
与框架无关的 C++ API 为 Transformer 提供 FP8 支持
NVIDIA Multi-Instance GPU(MIG) 技术
适应不需要完整 GPU 的工作负载(有利于土里负载)
第二代 MIG 分区技术: 每个 GPU 实例的计算能力提升了约 3 倍,内存带宽提升了近 2 倍
支持动态更改 MIG 配置文件,无需重置 GPU
NVIDIA Multi-Instance GPU(MIG) 级可行执行环境(Trusted Execution Environments, TEE)机密计算
最多支持七个独立的 GPU 实例,每个实例都配备专用的 NVDEC 和 NVJPG 单元
每个实例包含一组独立的性能监视器,可与 NVIDIA 开发者工具配合使用
CPU 和 GPU 之间进行加密传输
GPU 硬件虚拟化通过 PCIe SR-IOV 实现: 每个 MIG 实例对应一个 Virtual Function (
VF
)基于硬件的安全功能确保机密性和数据完整性
硬件防火墙在 GPU 实例之间提供内存隔离

MIG结合sr-iov实现虚拟机的vGPU隔离
备注
MIG提供了硬件级别的隔离,能够加强虚拟化的数据安全性