AI-hardware: NVIDIA H100 en B200 architectuur voor LLM-training en inferentie

Expert • Les 30

AI-hardware: NVIDIA H100 en B200 architectuur voor LLM-training en inferentie

Grote taalmodellen draaien op gespecialiseerde hardware die fundamenteel verschilt van consumentengamekaarten. De NVIDIA H100 (Hopper, 2022) en B200 (Blackwell, 2024) zijn het ruggengraat van vrijwel alle hedendaagse LLM-training en -inferentie in de cloud. Begrijpen hoe deze chips werken helpt bij het nemen van infrastructuurkeuzes en het begrijpen van schaallimieten.

Tensor Cores: matrixvermenigvuldiging als first-class citizen

De kern van AI-hardware zijn Tensor Cores: gespecialiseerde rekeneenheden die matrix-matrixvermenigvuldigingen in mixed precision (FP16/BF16 input, FP32 accumulatie) uitvoeren. De H100 SXM5 heeft 528 Tensor Cores van de vierde generatie, goed voor 3958 TFLOPS in FP16. De B200 verdubbelt dit naar 9000 TFLOPS. Vergeleken met een moderne consumentenkaart (RTX 4090: 330 TFLOPS FP16) is dit een factor 10-30 meer rekenkracht.

HBM-geheugen en bandbreedte

LLM-inferentie is memory-bandwidth-gebonden: de bottleneck is hoe snel modelgewichten uit geheugen geladen kunnen worden, niet de rekenkracht. De H100 SXM5 heeft 80 GB HBM3 met 3.35 TB/s bandbreedte. De B200 stijgt naar 192 GB HBM3e met 8 TB/s. Vergelijk dit met een RTX 4090 (24 GB GDDR6X, 1 TB/s). Deze bandbreedte bepaalt directe de maximale token-generatiesnelheid bij inferentie.

NVLink en NVSwitch: multi-GPU connectiviteit

Grote modellen passen niet op één GPU en worden verdeeld over meerdere chips via tensor- en pipeline-parallelisme. NVLink verbindt GPU’s direct met hoge bandbreedte (H100: 900 GB/s bidirectioneel per GPU in een DGX H100 node met NVSwitch). Dit is cruciaal voor efficient model-parallelisme: de communicatiekost tussen GPU’s is lager dan de rekentijd, waardoor schaling naar 8 of 16 GPU’s bijna lineair efficiënt is.

Blackwell B200: transformer engine en FP8

De B200 introduceert native FP8-ondersteuning in de Transformer Engine: een hardware-accelerator die automatisch wisselende precisieverlagingen toepast per laag, wat het geheugengebruik halveert en de doorvoer verdubbelt ten opzichte van BF16, zonder significante kwaliteitsverlies. NVLink Switch System verbindt 576 B200-GPU’s in een enkel fabric met 1.8 PB/s totale bandbreedte — de schaal die nodig is voor de volgende generatie frontier-modellen.

Terug