Zaprezentowane przez prezesa Nvidii Jensen Huanga podczas konferencji GTC nowe karty Blackwell będą w stanie wygenerować 116 tzw. tokenów na sekundę. Token to zwykle od kilku liter to jednego krótkiego słowa. Jeśli chodzi o szybkość, będzie to więc ok. 30x więcej niż dotąd najmocniejszy GPU Nvidii H100. To wciąż jednak istotnie słabiej niż LPU (language processing unit) od startupu Groq. Ten jest w stanie, jak o tym pisaliśmy niedawno, wygenerować około 500 tokenów na sekundę.
To bardziej efektywne generowanie odpowiedzi jest bardzo istotne. Dlaczego? Umożliwia przesunięcie części zasobów do bardziej obliczeniowo wymagającego procesu trenowania modeli. A trenowanie dużych modeli językowych będzie również szybsze na nowej platformie, ale „tylko” o około 4x.
Pojedyncza karta Blackwelll GB200 będzie miała do 192 GB pamięci, czyli ponad 2x więcej niż najczęściej obecnie używane karty H100 z 80 GB pamięci.
Co da szybsze generowanie odpowiedzi w połączeniu z innymi nowinkami technologicznymi, na przykład wprowadzeniu chłodzenia cieczą? Spowodują, że infrastruktura oparta na platformie Blackwell będzie 25x bardziej wydajna energetycznie.
Nie pojedyncze sztuki, tylko klastry
Należy się spodziewać, że GPU Blackwell raczej rzadko będzie sprzedawany w pojedynczych sztukach. Obecnie szacuje się, że jedna karta H100 z 80 GB pamięci pozwala na wytrenowanie – i to w ciągu wielu tygodni – modelu o wielkości 1 GB, a więc całkiem małego. Jeden Blackwell pozwalałby więc na wytrenowanie modelu raptem nieco większego niż 2 GB.
Dlatego Nvidia będzie oferować nowe GPU w klastrach GB200 NVL72. Taki klaster będzie zawierał 72 GPU i 36 CPU Nvidii (opartych na technologii Arm).
Nowe karty będą obsługiwały technologię NVLink piątej generacji, która pozwala na szybki transfer danych między kartami GPU. To, według Nvidii, pozwoli na trenowanie modeli wielkości wielu bilionów parametrów.
Źródło zdjęcia: BoliviaIntligente/Unsplash