1 maja 2024

Bielik to tylko jeden krok, potrzebujemy więcej polskich LLM-ów (WYWIAD)

Po czym poznać, że duży model językowy nie rozumie polskiego kontekstu kulturowego? Bo na pytanie: „Jak się masz?”, odpowiada: „Super!”, zamiast: „Stara bida!” – wyjaśnia Sebastian Kondracki, inicjator powstania Bielika, czyli polskiego LLM, oraz pomysłodawca projektu SpeakLeash (Spichlerz). Dlaczego potrzebujemy własnych, krajowych modeli językowych? Jak powstał Bielik i do czego można go wykorzystać w biznesie?

Marcin Bokszczanin

0 komentarzy

Dziennikarz HomoDigital. Wcześniej redaktor w anglojęzycznym serwisie dla inwestorów – PAP Market Insider

Marcin Bokszczanin: Może zaczniemy od wstępu dla niewtajemniczonych – czym są, jakie mają możliwości i do czego służą duże modele językowe?

Sebastian Kondracki: Może powiedzmy, od czego się to wszystko zaczęło. Kilka lat temu kilku naukowców, między innymi Polak Łukasz Kaiser, wymyśliło architekturę którą nazwana transformer przetwarzania języka przez komputery, którą nazwano transformer. Architektura ta zrewolucjonizowała przetwarzanie języka naturalnego (NLP). Chociaż systemy NLP istniały wcześniej, transformer wprowadził nowatorskie podejście. Zamiast analizować tekst sekwencyjnie, słowo po słowie lub linia po linii, modele oparte na transformerze mogą przetwarzać całe zdania lub nawet większe fragmenty tekstu jednocześnie. Dzięki temu mogą rozpoznać i zrozumieć związki i zależności między słowami czy zdaniami, które mogą być od siebie oddalone, co jest kluczowe dla głębszego zrozumienia kontekstu i znaczenia tekstu. Takie podejście pozwala na bardziej zaawansowane interpretacje i reakcje na naturalny język, co sprawia, że bardziej przypominają one ludzkie rozumienie.

Na podstawie tej architektury zaczęto tworzyć coraz większe tak zwane modele językowe. Umiejętności tych najmniejszych nie były zbyt imponujące, ale szybko przekonano się, że powiększenie modelu daje nieproporcjonalnie większy wzrost jego umiejętności. Więc modele stawały się coraz większe i większe. Aż doszliśmy do dużych modeli językowych, czyli LLM-ów. A więc modeli tak dużych, że nie tylko rozumieją język, ale i posiadają imponującą wiedzę o świecie.

LLM to w świecie sztucznej inteligencji coś w rodzaju super-absolwenta uniwersytetu. Ten „student” nie tylko przeczytał wszystkie książki i materiały, jakie mógł znaleźć, ale też nauczył się z nich wzorców, faktów, a nawet sposobów pisania i odpowiadania na pytania w różnych językach. Dzięki temu LLM potrafi komunikować się, tworzyć teksty, odpowiadać na pytania, a nawet tworzyć nowe pomysły na podstawie tego, czego „nauczył się” z dostępnych mu danych. Mimo że LLM nie posiada doświadczenia życiowego czy emocji, jego zdolność do przetwarzania i generowania języka jest imponująca.

My z takim modelem komunikujemy się przy pomocy tzw. promptów. Prompty to polecenia lub pytania, które zadajemy naszemu „super-absolwentowi”, aby go „aktywować” i skłonić do działania.

No dobrze, ale spora część z nas, zwłaszcza ta młodsza część, z powodzeniem używa ChatGPT od OpenAI, Gemini od Google czy Copilota od Microsoftu. Dlaczego potrzebujemy polskiego LLM? Nie wystarczy nam ChatGPT?

W przypadku języka polskiego mamy pewien dylemat. Te modele językowe, które są dostępne za darmo i są dobrej jakości – nie znają polskiego zbyt dobrze. Z kolei te, które znają nasz język dość dobrze – są zamknięte i płatne.

Poza tym, choć na przykład OpenAI miał olbrzymie środki i dzięki temu dość dużo tekstów języka polskiego przetworzył, budując swoje modele, to można wyczuć, że podstawowym językiem modelu jest angielski. Choć nam może się wydawać, że ładnie mówi po polsku, to humanista zauważy, że taki model mówi poprawnie językowo, ale ma dużo naleciałości z języka angielskiego. I zwróćmy uwagę, że jeżeli ChatGPT projektuje jakieś tytuły czy śródtytuły, to w nich słowa zaczynają się od dużych liter, w sposób anglosaski. Na przykład napisze „Wielkie Odkrycie Polskich Naukowców” zamiast „Wielkie odkrycie polskich naukowców”.

Taki model używa słów, które są poprawnie używane po polsku, ale w naszym języku występują rzadko, a w angielskim – często. Są jeszcze wątki kulturowe – jeśli poprosi się ChatGPT, by wygenerował dialog dwóch sąsiadów, to on wygeneruje nam dialog: „Cześć, Zenek!” „Cześć, Mietek!” „Jak się masz?” „Super”. To taki typowo amerykański styl przywitania, a w Polsce by było: „Jak się masz?” „Stara bida”. To jest po prostu trochę inne kulturowo.

Dlatego potrzebujemy modeli, które w większości były trenowane na języku polskim, które znają wszystkie niuanse językowe, które mają wbudowane te wszystkie konteksty kulturowe i społeczne, a nie udają Amerykanina mówiącego po polsku. To jest pierwszy element.

A ten drugi?

Drugi element to nasze bezpieczeństwo. Duże modele, jak te od OpenAI, mają serwery poza granicami naszego kraju. Jeżeli taki duży model sprawdzałby dokumentację medyczną – nie diagnozował, tylko sprawdzał czy korygował dokumentację – to mamy problem z zachowaniem tajemnicy lekarskiej; mamy też tajemnicę adwokacką, tajemnicę bankową. Nie chcielibyśmy, żeby to wszystko było przetwarzane przez duży model umieszczony poza granicami naszego kraju.

Musimy więc mieć modele dla tych wrażliwych danych tutaj, u nas, wewnątrz. Jest na przykład Polska Chmura Krajowa i tam powinny być uruchamiane nasze modele lub na własnych serwerach firmy, urzędu.

Jeśli dodamy jeszcze elementy wojskowe, cyberbezpieczeństwo itd., to też się okaże, że taki model musimy mieć.

Trzecia rzecz. Trenowanie dużych modeli językowych (LLM) można sobie wyobrazić jako proces podobny do edukacji bardzo zdolnego ucznia, ale odbywający się na dwóch różnych poziomach. Na pierwszym etapie, „uczeń” (czyli nasz model) uczy się rozumieć i generować język na bardzo szeroką skalę. Można powiedzieć, że na tym etapie model staje się ekspertem w używaniu języka, ale jeszcze nie specjalizuje się w żadnym konkretnym temacie.

Drugi etap to tzw. „dostrajanie” (fine-tuning), gdzie bierzemy ten ogólnie wykształcony model i „szkolimy” go dalej na materiałach z konkretnej dziedziny. Na przykład, jeśli jesteśmy ośrodkiem medycznym i chcemy, aby model lepiej rozumiał i generował teksty na temat medycyny, podajemy mu do nauki specjalistyczne materiały medyczne.

Kluczową zaletą, którą warto podkreślić, jest to, że posiadając dostęp do ogólnego modelu, który można za darmo dostosowywać do swoich potrzeb, otwieramy ogromne możliwości dla różnych organizacji, nie tylko tych komercyjnych, ale także dla szkół, uniwersytetów, szpitali czy nawet indywidualnych użytkowników, aby wykorzystać tę technologię w specjalistyczny sposób. To stwarza pewien kontrast wobec modeli zagranicznych, które nie zawsze oferują taką elastyczność lub nie są dostępne bez dodatkowych opłat.

Państwo stworzyli Bielika we współpracy z Cyfronetem. Do czego potrzebny jest nam taki model, jeśli m.in. na Politechnice Wrocławskiej powstaje model PLLuM? Z którym, zresztą, mieliście współpracować…

I nadal będziemy współpracować. Naszym głównym celem jako SpeakLeash nie jest wypuszczanie modeli. Dla PLLuM – to jest ich cel. Oni chcą wypuścić model i inteligentnego asystenta. Natomiast my jako SpeakLeash zajmujemy się tworzeniem ekosystemu narzędzi służących do budowania dużych modeli językowych. Czyli po pierwsze zestawy danych. Dlatego mamy nadzieję, że PLLuM będzie korzystał z naszych, ale i my korzystaliśmy z danych uczestników konsorcjum PLLuM. Zrobiliśmy również leaderboarda dla polskich modeli i testujemy różne architektury. Więc Bielik pojawił się w ekosystemie, ale to nie był nasz główny cel. Jeśli tworzymy narzędzia, to na tych narzędziach chcemy też tworzyć modele, swego rodzaju proof of concept.

W przyszłości zapewne pojawią się kolejne modele na innych architekturach – Bielik powstał na Mistralu. Więc proszę się przygotować na nowe modele. Będzie też tokenizer polski.

Pamiętajmy też, że Bielik nie jest jedyny. Niedawno pojawił się model Qra stworzony na Politechnice Gdańskiej.

Za chwilę wejdzie AI Act, i takich projektów jak PLLuM czy SpeakLeash musi powstać w Polsce, na różnych poziomach, co najmniej kilka, a w Europie setki, jeśli nie tysiące, żebyśmy byli konkurencyjni wobec innych rynków. Wszystkie te projekty powinny wymieniać się wiedzą, danymi i w każdej iteracji tworzyć lepsze narzędzia lub modele.

Celem powstania polskiego LLM było również stworzenie takiego modelu, który lepiej zna polską historię, kulturę czy geografię. W jakim stopniu udało się to osiągnąć?

Do Bielika jeszcze nie udało się włożyć dużej ilości tych treści kulturowych. Ale językowo osiągnęliśmy najbardziej naturalny poziom. Zauważyliśmy, że Bielik, ale i PLLuM, musi mieć olbrzymie ilości tekstu naprawdę wysokiego poziomu, na przykład książek. Większość modeli językowych jest budowanych na stronach www i jest potrzeba zmiany tego. No i fajnie by było, jakby wydawcy dołączyli do tego typu projektów.

Bielik ma chyba najlepsze wskaźniki generowania naturalnego języka polskiego. Ufamy, że ta wiedza zostanie przekazana do PLLuM-a i PLLuM będzie już miał większe możliwości. Pamiętajmy, że CLARIN, PLLuM mają dostęp do książek czy też prac naukowych o „wysokiej” treści.

Jakie są przykłady możliwych zastosowań modelu Bielk w biznesie?

Niestety, problemem jest to, że jeden z dwóch modeli Bielik i to ten bardziej użyteczny, czyli Bielik-7B-instruct, był dostrajany w części na danych angielskich, które nie mogą być stosowane do celów komercyjnych. I my pierwszą wersję Bielika musieliśmy puścić nie do użytku komercyjnego. Ale na dniach wypuścimy system do społecznej edycji instrukcji do dostrajania. Mamy nadzieję, że dzięki temu uda nam się zbudować taką bazę instrukcji, żeby zastąpić te dane, które były dostępne na licencji niekomercyjnej i wypuścić model już na licencji komercyjnej. Jak szybko się to stanie, zależy od tego, jak wielu woluntariuszy nam pomoże.

Jednak sama publikacja modelu jest ważna, bo już teraz setki data scientistów, programistów, użytkowników zaczęło użytkować model i przesyłać nam dużo konstruktywnych uwag.

Co do samej komercyjnej użyteczności modelu – Bielik halucynuje, tak jak halucynują inne modele. Żeby unikać tych halucynacji możemy go dostrajać dziedzinowo albo używać go wewnątrz firm z dostępem do prywatnych dokumentów firm przez tzw. RAG-a (Retrieval-Augmented Generation, czyli umożliwianie modelowi dostępu do dokumentów, na których nie był trenowany), bo Bielik ma najlepszy współczynnik RAG Reader w Polsce.

Tak więc Bielik nadaje się na model podstawowy dla RAG-a. Pięknie nadaje się do wykrywania mowy nienawiści, potrafi wykryć w komentarzach żarty z mniejszości mimo maskowania ich ironią czy sarkazmem. Nadaje się też do podsumowań, klasyfikacji czy ekstrakcji danych. Potrafi na przykład wyjaśnić pismo z urzędu. Nadaje się również do analizy wszelkiej dokumentacji projektowej, bo był trenowany również na kodzie. Pamiętajmy jednak, że Bielik ma okno kontekstowe wielkości 4096 tokenów i nie jest w stanie zanalizować każdego dokumentu.

Czy planowana jest współpraca z platformami chmurowymi, czy też podmiot, który chciałby używać modelu w chmurze, musiałby sam model zainstalować i skonfigurować?

Tak, na pewno będzie dostępny w chmurze. Jesteśmy takimi „agnostykami technologicznymi”, będziemy chcieli współpracować z wszystkimi, którzy będą chcieli udostępniać nasz model na otwartej licencji. Już rozmawiamy z Microsoftem, który ma katalog otwartych modeli u siebie. Zaczniemy od Microsoftu, ale myślę, że Bielik na AWS też będzie dostępny, musimy tylko przeskoczyć kwestię niekomercyjności modelu. Oczywiście Bielik będzie za darmo, tylko za chmurę trzeba będzie zapłacić…

Już teraz można Bielika uruchomić na Hugging Face, działa to raczej wolno, ale do pewnych zastosowań, takich, w których czas odpowiedzi ma mniejsze znaczenie, na przykład przy wykrywaniu hejtu w komentarzach, to nawet jeśli to trwa 3 minuty, to nie ma to większego znaczenia.

Można również pobrać tak zwane wersje skwantyfikowane. Są to nieco uproszczone wersje modelu, słabiej się nadające do generacji tekstu, ale do klasyfikacji czy wykrywania emocji w tekście są wystarczająco dobre. A można je uruchomić na zwykłym CPU.

Przeczytaj też: Polscy naukowcy z Llamy zrobili Qrę, czyli o nowym polskim LLM

Sebastian Kondracki to Chief Innovation Officer w Deviniti oraz pomysłodawca projektu SpeakLeash (Spichlerz) zbierającego zasoby i narzędzia do tworzenia polskich modeli językowych. Spiritus movens powstania modelu Bielik, w którym kluczową rolę odegrali również Krzysztof Ociepa, Łukasz Flis oraz Krzysztof Wróbel.

Wywiad ukazał się w serwisie HomoDigital 16 kwietnia 2024 r.

Źródło zdjęcia: archiwum prywatne, Sebastian Kondracki

Tagi:Sztuczna inteligencja