Partnerem strategicznym Homodigital.pl jest
23 lipca 2025

Chińska AI nie zwalnia. Nowe modele lepsze od Claude Opus 4?

Chińska AI nie zwalnia. Po sukcesie DeepSeeka mamy kolejne modele, tym razem od Alibaby i labu Moonshot, które dorównują albo wręcz wyprzedzają najlepsze produkty firm amerykańskich. Z jednym zastrzeżeniem – nie są to modele rozumujące i porównań w benchmarkach dokonano również w stosunku do nierozumujących wersji modeli z USA, takich jak Clade Opus 4.

Kiedy na początku tego roku chiński DeepSeek wypuścił swój rozumujący model R1, świat przecierał oczy w zdumieniu a rynki finansowe zareagowały przeceną amerykańskich Big Techów. Po pierwsze, okazało się, że chińska AI nie musi być gorsza od amerykańskiej, a na dodatek niektórzy uznali, że efektywność chińskiego modelu pokazuje, że Big Techy przeinwestowały w infrastrukturę AI – stąd też wzięła się przecena ich akcji.

Nowe modele – Qwen i Kimi – aż tak wielkiego wrażenia pewnie nie zrobią. Ale pokazują, że chińska AI nie zwalnia. I warto im się przyjrzeć, bo, w odróżnieniu od większości amerykańskich konkurentów – są to modele otwarte, z których można korzystać za darmo i z których można się nieco nauczyć.

Kimi K2 – dogania Claude’a w kodowaniu?

Pierwszy z dwóch nowych modeli to Kimi K2 od labu Moonshot. Jak chwalą się jego twórcy, jego mocną stroną jest kodowanie i zadania agentowe. Jak podaje Moonshot, w benchmarkach związanych z programowaniem jest albo tylko nieco gorszy, albo wręcz lepszy (LiveCodeBench) od nierozumującej wersji Claude Opus 4 od Anthropica, modelu dość powszechnie uważanego za jeden z najlepszych na świecie w tej dziedzinie.

Model ten jest też tylko trochę gorszy od Claude Opus 4 w zadaniach agentowych (Tau2-bench), a wręcz lepszy od modelu Anthropica w teście matematycznym AIME 2025 i w benchmarku z nauk ścisłych GPQA-Diamond.

Poza niezłymi wynikami benchmarków, Kimi K2 jest szczególny z jeszcze jednego powodu – został wytrenowany przy pomocy nowatorskiego optymalizatora MuonClip, który znacznie przyspiesza proces treningu modelu.

Nowy Qwen 3 – jeszcze lepszy, zwłaszcza w naukach ścisłych

Dosłownie kilka dni po ukazaniu się Kimi K2, Quen, czyli lab AI należący do giganta e-handlu Alibaby, udostępnił nową wersję swojego modelu Qwen 3 z 235 mld parametrów (Qwen3-235B-A22B-2507). Wersję, która nie tylko stanowi istotny postęp w stosunku do swojego poprzednika, ale która dogania też modele amerykańskie – i to nawet te rozumujące.

Jak widać na wykresie, nowy Qwen wyprzedza wszystkie porównywane do niego modele nierozumujące w pięciu zaprezentowanych kategoriach. Zwłaszcza imponująca jest przewaga w matematycznym teście AIME 2025.

Jeszcze bardziej imponujące jest to, że wynik 77.5% nowego Qwena w mierzącym umiejętności z nauk ścisłych teście GPQA to tylko trochę mniej niż osiąga „rozumujący” Claude Opus 4 (79.6%) i więcej niż rozumujący Claude Sonnet 4 (75.4%). Niewiele gorzej jest w matematycznym AIME 2025 – tutaj wynik Qwena jest praktycznie równy temu dla Sonneta 4.

Chińska AI nie zwalnia

Teraz pozostaje nam czekać na rozumujące wersje obu modeli – wtedy dowiemy się, jak dużym zagrożeniem będą dla amerykańskich konkurentów. Modele „nierozumujące” zapewne mają wciąż przyszłość w systemach agentowych, ale ich rola jako samodzielnych rozwiązań będzie zapewne maleć.

Każdy z dwóch modeli można wypróbować wybierając odpowiedni model w chatbotach obu labów – Qwena i Kimi. Oba posługują się językiem polskim, przy czym Qwen chyba nieco płynniej. Tylko nie piszcie tam niczego wrażliwego – chińskie laby znane są z innowacji, ale niekoniecznie z bezpieczeństwa danych.

Wypróbowanie tych modeli na własnej infrastrukturze nie będzie proste – model Kimi ma bilion parametrów a Qwen 235 miliardów, więc oba wymagają klastra z akceleratorami AI. Być może jednak, jak niegdyś DeepSeek-R1, trafią do oferty Azure, AWS czy GCP. Wtedy będzie można je wypróbować bez obawy o wycieki danych – ale już nie za darmo.

Dla badaczy AI z całego świata istotna jest otwartość chińskich labów, które udostępniają wagi swoich modeli i często dzielą się zastosowanymi w nich technikami. Na tej otwartości skorzystał ostatnio polski model Bielik. Miejmy więc nadzieje, że innowacje z Kimi i Qwena też trafią do innych modeli.

Źródło grafiki: Sztuczna inteligencja, model Dall-E 3

Newsy
Home Strona główna Subiektywnie o finansach
Skip to content email-icon