Gemini 1.5 Pro, nowy duży model językowy (LLM), na razie będzie dostępny dla wybranych deweloperów i klientów korporacyjnych. Jak podaje Google, ma on osiągi porównywalne z Gemini Ultra. Dokładniejsze porównanie obu modeli udostępnione w artykule opublikowanym przez zespół Gemini pokazuje, że co prawda nowy model jest lepszy w zadaniach tekstowych od Gemini Ultra, ale gorzej sobie radzi z treściami multimedialnymi – zwłaszcza wideo i dźwiękiem.
Niedawno pisaliśmy o zmianie nazwy Barda na Gemini i udostępnieniu Gemini Ultra.
Nowości w Gemini Pro 1.5
Co nowego wnosi Gemini Pro 1.5 w stosunku do wersji 1.0, udostępnionej w grudniu? Po pierwsze, nowy model jest zbudowany w architekturze Mixture-of-Experts, czyli takiej, w której model nie jest monolitem, ale składa się z kilku, kilkunastu podmodeli. Podczas generowania odpowiedzi na prompt użytkownika wykorzystuje tylko 1-2 z tych podmodeli, a nie cały model, co istotnie skraca czas operacji. Nie jest to architektura nowa – na jej podstawie zbudowany jest GPT-4 (podobno, bo OpenAI nie podała tego oficjalnie) i Mistral 8x7B (na pewno). Ta technologia po raz pierwszy użyta przez Google’a dla modeli Gemini.
Kolejnym usprawnieniem w modelu 1.5 jest szersze tzw. okno kontekstowe, a więc to, ile treści model jest w stanie przyjąć w pojedynczym zapytaniu. W modelu 1.0 miało ono wielkość 32 tysiące tokenów (w języku angielskim średnio przypada nieco ponad jeden token na słowo tekstu, ale w niektórych innych językach jest to bliżej jednego tokenu na literę). W nowym Gemini 1.5 Pro będzie to 128 tysięcy tokenów (a więc 4x więcej). Google udostępni wąskiej grupie klientów do testowania okno kontekstowe wielkości 1 miliona tokenów (a więc około 30x większe).
Czemu ma to znaczenie? Większe okno kontekstowe pozwala modelowi „przetrawić” większą liczbę dokumentów i na ich podstawie udzielić odpowiedzi. I to nawet jeśli dokumenty te nie były dostępne w czasie trenowania modelu. Poza tym, jeśli mamy z modelem długą i bogatą „pogawędkę”, to przy większym oknie kontekstowym cała treść takiego chata może być umieszczona w kontekście. Przy mniejszym okienku kontekstu, LLM-y są bardziej podatne na odchodzenie od tematu wcześniejszych zapytań. Większe okno poprawia również możliwości modelu, jeśli chodzi o treści multimedialne, takie jak wideo czy dźwięk.
Niestety tak duże okno kontekstowe ma również swoje wady. Jak donosi portal TechCrunch, podczas demonstracji przez Google okna kontekstowego na 1 milion tokenów generacja odpowiedzi trwała od 20 sekund do nawet minuty. Używanie go wymaga zatem cierpliwości. Przedstawiciele Google’a zapewnili, że pracują nad poprawą szybkości działania modelu przy dużym kontekście.
Krótka historia wyścigu o AI
Po co Google’owi kolejny model, skoro swój „najlepszy” wydali zaledwie tydzień wcześniej? Cóż, Google ma wciąż wiele do nadrobienia. Choć Google rozwijał generatywną inteligencję już od dłuższego czasu, to nie spieszył się specjalnie z jej upublicznianiem. Dał się wyprzedzić, i to o parę długości, rozwiązaniom od OpenAI.
Kierowana przez Sama Altmana firma udostępniła swój ChatGPT w listopadzie 2022 roku i szybko pozyskała miliony użytkowników. A także rozpaliła wyobraźnię inżynierów, biznesmenów i innowatorów. Nakręciła także oczekiwania inwestorów.
Wymusiło to na Google’u opracowanie własnego chatbota (pod nazwą Bard), który został uruchomiony w marcu 2023 r. Jakość jednak nie zachwyciła, skłaniając komentatorów do spekulacji, że Google upublicznił niedopracowany produkt ze względu na plany ogłoszenia (również w lutym 2023 r.) integracji wyszukiwarki Bing od Microsoftu z ChatGPT.
Jakość Barda poprawiła się nieco po zmianie technologii, na której się opierał – Google przeprowadził się ze starszego modelu LaMDA na mocniejszy PaLM 2, ale nawet wtedy porównania Barda z ChatGPT zwykle wypadały lepiej dla tego drugiego.
Kolejna salwa w tej (jak dotąd nierównej) bitwie przyszła w grudniu 2023 r. Google ogłosił przesiadkę Barda na Gemini Pro 1.0 i zapewniał, że według jego testów model ten jest lepszy niż GPT-3.5, a więc LLM, na którym oparta była darmowa wersja ChatGPT. Jednak nie wszystkie niezależne testy potwierdziły dominację nowego modelu Google nad – przypomnijmy – już jak na LLM wiekowym, bo wydanym w 2022 roku, modelu od OpenAI.
Również w grudniu Google ogłosił, że jego najlepszy model Gemini Ultra jest lepszy od GPT-4, wciąż najnowszego (choć z marca 2023 roku) modelu od OpenAI. Gemini Ultra został udostępniony dopiero 8 lutego i wciąż czekamy na niezależne potwierdzenie tych twierdzeń.
Czekamy również na nowy model od OpenAI zamiast kolejnych ulepszeń dla serii GPT-4. Póki nie wiemy, jakie postępy poczynił przez ostatni rok OpenAI, póty kolejne modele od Google’a są jak walka z cieniem. Albo wręcz – z samym sobą. Można bowiem oczekiwać kanibalizacji Gemini Ultra przez Gemini Pro 1.5 – zwłaszcza jeśli ten drugi okaże się tańszy.
Źródło grafiki: Google