23 lipca 2025

Chińska AI nie zwalnia. Nowe modele lepsze od Claude Opus 4?

Chińska AI nie zwalnia. Po sukcesie DeepSeeka mamy kolejne modele, tym razem od Alibaby i labu Moonshot, które dorównują albo wręcz wyprzedzają najlepsze produkty firm amerykańskich. Z jednym zastrzeżeniem – nie są to modele rozumujące i porównań w benchmarkach dokonano również w stosunku do nierozumujących wersji modeli z USA, takich jak Clade Opus 4.

Marcin Bokszczanin

0 komentarzy

Dziennikarz HomoDigital. Wcześniej redaktor w anglojęzycznym serwisie dla inwestorów – PAP Market Insider

Kiedy na początku tego roku chiński DeepSeek wypuścił swój rozumujący model R1, świat przecierał oczy w zdumieniu a rynki finansowe zareagowały przeceną amerykańskich Big Techów. Po pierwsze, okazało się, że chińska AI nie musi być gorsza od amerykańskiej, a na dodatek niektórzy uznali, że efektywność chińskiego modelu pokazuje, że Big Techy przeinwestowały w infrastrukturę AI – stąd też wzięła się przecena ich akcji.

Nowe modele – Qwen i Kimi – aż tak wielkiego wrażenia pewnie nie zrobią. Ale pokazują, że chińska AI nie zwalnia. I warto im się przyjrzeć, bo, w odróżnieniu od większości amerykańskich konkurentów – są to modele otwarte, z których można korzystać za darmo i z których można się nieco nauczyć.

Kimi K2 – dogania Claude’a w kodowaniu?

Pierwszy z dwóch nowych modeli to Kimi K2 od labu Moonshot. Jak chwalą się jego twórcy, jego mocną stroną jest kodowanie i zadania agentowe. Jak podaje Moonshot, w benchmarkach związanych z programowaniem jest albo tylko nieco gorszy, albo wręcz lepszy (LiveCodeBench) od nierozumującej wersji Claude Opus 4 od Anthropica, modelu dość powszechnie uważanego za jeden z najlepszych na świecie w tej dziedzinie.

Model ten jest też tylko trochę gorszy od Claude Opus 4 w zadaniach agentowych (Tau2-bench), a wręcz lepszy od modelu Anthropica w teście matematycznym AIME 2025 i w benchmarku z nauk ścisłych GPQA-Diamond.

Poza niezłymi wynikami benchmarków, Kimi K2 jest szczególny z jeszcze jednego powodu – został wytrenowany przy pomocy nowatorskiego optymalizatora MuonClip, który znacznie przyspiesza proces treningu modelu.

Nowy Qwen 3 – jeszcze lepszy, zwłaszcza w naukach ścisłych

Dosłownie kilka dni po ukazaniu się Kimi K2, Quen, czyli lab AI należący do giganta e-handlu Alibaby, udostępnił nową wersję swojego modelu Qwen 3 z 235 mld parametrów (Qwen3-235B-A22B-2507). Wersję, która nie tylko stanowi istotny postęp w stosunku do swojego poprzednika, ale która dogania też modele amerykańskie – i to nawet te rozumujące.

Jak widać na wykresie, nowy Qwen wyprzedza wszystkie porównywane do niego modele nierozumujące w pięciu zaprezentowanych kategoriach. Zwłaszcza imponująca jest przewaga w matematycznym teście AIME 2025.

Jeszcze bardziej imponujące jest to, że wynik 77.5% nowego Qwena w mierzącym umiejętności z nauk ścisłych teście GPQA to tylko trochę mniej niż osiąga „rozumujący” Claude Opus 4 (79.6%) i więcej niż rozumujący Claude Sonnet 4 (75.4%). Niewiele gorzej jest w matematycznym AIME 2025 – tutaj wynik Qwena jest praktycznie równy temu dla Sonneta 4.

Chińska AI nie zwalnia

Teraz pozostaje nam czekać na rozumujące wersje obu modeli – wtedy dowiemy się, jak dużym zagrożeniem będą dla amerykańskich konkurentów. Modele „nierozumujące” zapewne mają wciąż przyszłość w systemach agentowych, ale ich rola jako samodzielnych rozwiązań będzie zapewne maleć.

Każdy z dwóch modeli można wypróbować wybierając odpowiedni model w chatbotach obu labów – Qwena i Kimi. Oba posługują się językiem polskim, przy czym Qwen chyba nieco płynniej. Tylko nie piszcie tam niczego wrażliwego – chińskie laby znane są z innowacji, ale niekoniecznie z bezpieczeństwa danych.

Wypróbowanie tych modeli na własnej infrastrukturze nie będzie proste – model Kimi ma bilion parametrów a Qwen 235 miliardów, więc oba wymagają klastra z akceleratorami AI. Być może jednak, jak niegdyś DeepSeek-R1, trafią do oferty Azure, AWS czy GCP. Wtedy będzie można je wypróbować bez obawy o wycieki danych – ale już nie za darmo.

Dla badaczy AI z całego świata istotna jest otwartość chińskich labów, które udostępniają wagi swoich modeli i często dzielą się zastosowanymi w nich technikami. Na tej otwartości skorzystał ostatnio polski model Bielik. Miejmy więc nadzieje, że innowacje z Kimi i Qwena też trafią do innych modeli.

Źródło grafiki: Sztuczna inteligencja, model Dall-E 3

Tagi:Sztuczna inteligencja