W czym leży problem? Generalnie w tym, że duże modele językowe (LLM) halucynują – w przypadku, gdy nie posiadają jakiejś wiedzy, zmyślają informacje na zasadzie „luźnych skojarzeń”. Zamiast po prostu stwierdzić, że czegoś nie wiedzą. Niestety wynika to z samej zasady działania modeli i jest technicznie trudne do skorygowania.
Tego typu halucynacje są oczywiście kłopotliwe i dla twórców LLM-ów, i dla osób czy firm z tych modeli korzystających. Przekonał się o tym pewien amerykański prawnik, na którego sąd nałożył karę za to, że podał podczas rozprawy precedensy zmyślone przez LLM.
O ile jednak w przypadku tego prawnika można mówić o jego niedbałości – bo nie sprawdził informacji podanej przez sztuczną inteligencję – o tyle problem zaczyna być istotniejszy dla OpenAI i innych twórców modeli językowych, jeśli taki model zaczyna zmyślać fakty na temat ludzi. Tutaj bowiem wchodzi do gry RODO (znana również pod angielskim skrótem GDPR), czyli kompleksowa europejska regulacja dotycząca ochrony danych osobowych.
Jak OpenAI może naruszać RODO?
NOYB (European Center for Digital Rights) – europejska organizacja na rzecz praw cyfrowych – poinformowało, że skierowało do austriackiego urzędu ochrony danych osobowych skargę na fakt, że OpenAI nie było w stanie skorygować nieprawidłowo generowanych danych o pewnej osobie reprezentowanej przez tę organizację. Konkretnie chodziło o datę urodzenia.
To nie pierwsza batalia, jaką firmom technologicznym wytoczyło NOYB. O zaangażowaniu organizacji w sprawę prywatności użytkowników Facebooka pisaliśmy w tym artykule.
OpenAI co prawda zaproponowało, że zablokuje generowanie informacji dla tej osoby, ale stwierdziło, że nie jest w stanie skorygować danych. Co więcej, firma jest nawet w stanie powiedzieć, skąd AI wzięła informacje dotyczące tej osoby ani jakie konkretnie dane na jej temat posiada. Po prostu stwierdziło, że „precyzja co do faktów dużych modeli językowych pozostaje polem aktywnych badań”.
Jest to zdecydowanie w kontrze do RODO. Po pierwsze, według regulacji, to osoba a nie firma dysponująca danymi osobowymi decyduje, czy dane powinny być usunięte czy poprawione. Po drugie, dysponent danych osobowych musi na żądanie podać skąd wziął te dane.
Według prawniczki NOYB Maartje de Graaf, „jeśli system nie jest w stanie zapewnić poprawnych i transparentnych wyników, to nie może być używany do generowania danych o osobach.”
Gdyby wprowadzono taką zasadę, to istotnie ograniczyłoby to zastosowania dużych modeli językowych.
Podobną skargę we wrześniu 2023 roku złożył w Urzędzie Ochrony Danych Osobowych Łukasz Olejnik, polski badacz z zakresu bezpieczeństwa i prywatności.
Źródło grafiki: Sztuczna inteligencja, model Dall-E 3