Wrodzona wada modeli językowych
Skąd biorą się halucynacje modeli językowych AI? Przede wszystkim stąd, jak te modele są zbudowane. Przez modele w fazie wstępnego treningu (pre-training) przepuszczane są olbrzymie ilości tekstu i model w jakimś stopniu „zapamiętuje” teksty, na których się uczył.
Potem, w fazie wnioskowania (inference) stara się odtwarzać teksty wcześniej widziane. Token po tokenie dodaje kolejne fragmenty odpowiedzi, na podstawie tego, co wydaje mu się najbardziej prawdopodobne na podstawie tekstów, które wcześniej widział. Jeśli temperatura modelu jest ustawiona na 0, to poda zawsze najbardziej prawdopodobny token. Jeśli jest wyższa, to losowo wybierze jeden z najbardziej prawdopodobnych tokenów. Jeśli więc mamy tekst „Warszawa jest”, to model losowo wybierze sobie następne słowo z takich słów jak „stolicą”, „metropolią”, „miastem” itp.
Problem pojawia się, jeśli model z jakimś faktem w fazie wstępnego treningu spotkał się niewiele razy, bądź nie spotkał się wcale. Wtedy nie ma wystarczającej reprezentacji tego faktu i zapytany o niego… wybiera tokeny z olbrzymiej puli równie mało prawdopodobnych opcji. Innymi słowy – halucynuje.
Jest to oczywiście problem i to znany od dawna. Problem, który powinien być eliminowany w kolejnych fazach treningu, takich jak dostrajanie, jednak tak się nie dzieje. Czemu? Bo dla deweloperów modeli liczą się wyniki benchmarków a te, jak odnotowują badacze z OpenAI, promują „zgadywankę”.
Halucynacje AI powodowane przez benchmarki?
Jak powinien zachowywać się model zapytany o fakt, na temat którego nie ma wystarczającej wiedzy? Prawdopodobnie najlepiej by było, by po prostu powiedział, że nie wie. I jest to coś, czego można modeli nauczyć. Problem polega na tym, że najpopularniejsze benchmarki nie promują takiego zachowania modelu.
Benchmarki to po prostu zestaw zadań, na które ma odpowiedzieć model. Jeśli model odpowie prawidłowo, to dostaje punkt, jeśli nieprawidłowo lub odpowie, że nie wie, to dostaje zero punktów. Jeśli model nie zna odpowiedzi, to zgadując ma niewielką, ale jednak szansę na prawidłową odpowiedź, za to mówiąc, że nie wie ma zagwarantowane zero punktów. W ten sposób modele rzetelnie informujące o swojej niewiedzy są penalizowane za uczciwość.
Jak można sobie z tym poradzić? Na przykład wprowadzając ujemne punkty za nieprawidłowe odpowiedzi. Niektóre benchmarki już wprowadziły takie zmiany. Jednak nie te najpopularniejsze.
„Powszechnie stosowane benchmarki oparte na dokładności odpowiedzi muszą zostać zaktualizowane tak, aby ich system punktacji zniechęcał do zgadywania. Jeśli główne rankingi nadal będą nagradzać szczęśliwe strzały, modele będą się dalej uczyć zgadywania. Naprawienie rankingów może poszerzyć zastosowanie technik redukcji halucynacji, zarówno nowo opracowanych, jak i pochodzących z wcześniejszych badań” – napisali badacze OpenAI.
Jak odnotowują badacze, nigdy nie osiągniemy stanu, w którym modele będą w stanie odpowiedzieć prawidłowo na wszystkie pytania. Jednak powinniśmy je nauczyć, jak nie opowiadać nam bzdur i w zamian – żeby umiały poinformować nas o swojej niewiedzy.
Źródło zdjęcia: Alan Rockefeller

