W zeszłym miesiącu Google zadziwiło świat. Na swojej konferencji I/O zaprezentowało szeroką gamę nowych modeli i narzędzi AI, które w wielu wypadkach przeganiały konkurencję. Tak było z modelem graficznym Imagen 4 czy generatorem wideo Veo 3. Również sztandarowy model firmy, Gemini 2.5 Pro, pokazał, że Google już nie musi gonić świata (czyli OpenAI). Widać, że konkuruje jak równy z równym, również w programowaniu. A teraz dostaliśmy nowszą, lepszą wersję tego modelu.
AI dla koderów – jeszcze lepsze Gemini
Dostępność nowej wersji modelu ogłosił prezes firmy Sundar Pichai, zachwalając poprawione umiejętności programowania, rozumowania czy wnioskowania matematycznego i naukowego.
Nowy model wyprzedził swoją poprzednią wersję w rankingu LM Arena, który jest tworzony w oparciu o „bitwy” (battles). W bitwach użytkownicy porównują odpowiedzi dwóch anonimowych modeli na to samo zapytanie i głosują na tę, która ich zdaniem jest lepsza. W tej chwili w rankingu tym modele Google okupują trzy pierwsze miejsca – na trzecim, za dwoma modelami Pro jest Gemin 2.5 Flash.
Dla programistów ważniejszy jest ranking WebDev Arena. Tutaj „bitwy” nie są na wygenerowanie tekstu tylko kodu dla aplikacji webowej. Tu dotąd prowadził Claude 4.0 Opus od Anthropica, nieznacznie wyprzedzając poprzednią wersję Gemini 2.5 Pro. Teraz jednak prowadzi najnowsza wersja modelu Google.
W benchmarkach syntetycznych niekoniecznie jest już aż tak dobrze. O ile najnowsze Gemini prowadzi w benchmarku Aider Polyglot na edycję kodu, o tyle w LiveCodeBench jest nieco w tyle za modelami OpenAI i DeepSeeka, a w programowaniu agentowym (SWE-bench) wyraźnie ustępuje liderowi tej kategorii, Anthropicowi.
Jeśli chcecie przetestować nowe Gemini, to jest ono dostępne w apce mobilnej Gemini. To raczej nie najlepsze miejsce na testowanie umiejętności programistycznych modelu. testować może też w Google AI Studio i – dla klientów chmurowych – w Vertex AI.
Anthropic wycina WindSurf (czytaj: OpenAI), Anysphere się cieszy
Jednak walka o dominację w AI dla koderów to nie tylko nowe modele i coraz lepsze narzędzia. Przekonał się o tym WindSurf, twórca edytora kodu, w którym AI pomaga programiście w pisaniu programów. Firma, którą w maju za 3 mld dolarów podobno przejął OpenAI, nie dostała dostępu do modeli Claude 4 od Anthropica a w tym tygodniu zauważyła, że została odcięta od starszych modeli Claude 3.5 i 3.7 Sonnet.
Anthropic nie kryguje się specjalnie. Jego współzałożyciel skomentował decyzję swojej firmy mówiąc, że „byłoby dziwne gdybyśmy sprzedawali Claude’a do OpenAI”.
Faktycznie, dziwne by było sprzedawać swój, uznawany przez wielu za najlepszy na rynku, produkt najgroźniejszej konkurencji.
Całej sytuacji zapewne z pewną satysfakcją przygląda się Anysphere, producent konkurencyjnego wobec WindSurfa edytora Cursor. WindSurf ma zagwozdkę, a Cursor bez problemu działa z Claude 4. Satysfakcja jest tym większa, że podobno OpenAI chciało kupić Anysphere i tylko po odrzuceniu tej oferty skierował swoją uwagę na WindSurfa.
Teraz, dzięki decyzji o pozostaniu niezależnym podmiotem, Cursor ma dostęp do najlepszych modeli na rynku. A Anysphere dobrze sobie radzi bez pieniędzy OpenAI. Właśnie pozyskało 900 mln dolarów od inwestorów w transakcji wyceniającej firmę na 9,9 mld dolarów. To przeszło trzykrotnie więcej niż OpenAI zapłacił za WindSurf.
Źródło zdjęcia: Aerps.com/Unsplash