Partnerem strategicznym Homodigital.pl jest
14 października 2024

Obecna GenAI nie myśli? Tak sądzą badacze od Apple

Czy obecna generatywna sztuczna inteligencja (GenAI) nie myśli? Tak twierdzą badacze od Apple. Ma to wynikać z prostych testów przeprowadzonych na najnowszych dużych modelach językowych (LLM). Testy dotyczą też najnowszych modeli GPT-o1 od OpenAI, które miały charakteryzować się zaawansowanym myśleniem logicznym i matematycznym.

Błędy, których nie popełniłby dziesięciolatek

Co konkretnie skłoniło badaczy od Apple do wyciągnięcia takiego wniosku? Wzięli zestaw pytań z matematyki dla szkół podstawowych (tak zwany GSM8k), czyli zestaw, na którym „uczy się” wiele modeli i na którym modele są testowane. Te testy przeprowadzane są z dobrym skutkiem, bo większość modeli uzyskuje tutaj 80 punktów lub więcej na 100 możliwych. Następnie wprowadzili w nim pewne modyfikacje, by zobaczyć, czy modele radzą sobie ze zmodyfikowanymi zadaniami.

Jaki uzyskali wynik? Po pierwsze pogorszenie średnich wyników, po drugie – ich istotną zmienność. Jak pisze na portalu X Mehrdad Farajtabar, jeden z autorów badania, „modele językowe (LLM) są wrażliwe na zmiany nazw własnych (np. osób, jedzenia, przedmiotów), a tym bardziej, jeśli zmieniane są liczby.”

Modele były szczególnie podatne na dodanie do testu zdania, które z pozoru – tak się wydaje – może mieć znaczenie dla treści zadania, ale tak naprawdę nie wnosi nic do zagadnienia. Np. w zadaniu sumowania liczby zebranych owoców w ciągu trzech dni dodano zdanie, że pięć owoców zebranych w niedzielę było „nieco mniejszych niż przeciętnie”. I modele – włącznie z GPT-o1-mini – odjęły je od sumy.

Błąd, którego nie popełniłby przeciętny dziesięciolatek. Nawet dla najlepszego z modeli – GPT-o1 preview – przy tego typu pytaniach liczba prawidłowych odpowiedzi spadła o jedną szóstą. Dla sporej grupy modeli było to ponad 50%.

Obecna GenAI nie myśli. LLM-y to ślepa uliczka?

Przez ostatnie lata w środowisku AI trwała dyskusja, czy zwiększając możliwości modeli językowych, czy to przez zwiększenie liczby parametrów tych modeli, czy to przez zwiększenie ilości danych użytych do trenowania, jesteśmy w stanie osiągnąć AGI. To tzw. ogólna sztuczna inteligencja, która byłaby w stanie sprostać ludzkiej, a nawet nad nią zapanować. Badacze od Apple twierdzą, że nie tędy droga.

Zachowanie LLM-ów „lepiej tłumaczy zaawansowane dopasowywanie wzorców—tak kruche, że zmiana nazw może zmieniać wyniki o ok. 10%! Możemy skalować dane, parametry i moc obliczeniową—lub używać lepszych danych treningowych dla Phi-4, Llama-4, GPT-5. Ale wierzymy, że to doprowadzi do 'lepszych dopasowywaczy wzorców’, a niekoniecznie 'lepszych myślicieli’, pisze Farajtabar.

Podobną opinię – o niedających się usunąć ograniczenia modeli językowych – od lat wyrażał Yann LeCun, jeden z najbardziej znanych sceptyków AGI. W niedawnym wywiadzie dla”The Wall Street Journal” odnotował on, że „można manipulować językiem i nie być mądrym, i to właśnie zasadniczo pokazują modele LLM.”

Czy to oznacza, że nie doczekamy się AGI? Zapewne kiedyś tak. Ale będziemy potrzebowali czegoś więcej niż stare (mają już 7 lat), dobre transformery, na których oparte są LLM-y.

Źródło grafiki: Sztuczna inteligencja, model Dall-E 3

Home Strona główna Subiektywnie o finansach
Skip to content email-icon