Polski model myślący po polsku
Marcin Bokszczanin: Od parunastu dni żyjemy informacją, że mamy nowy, lepszy polski duży model językowy, czyli Bielika. Więc zacznijmy od najprostszego pytania – po co nam polski model? Przecież ChatGPT, Gemini czy Claude mówią po polsku. I to dość przyzwoicie.
Michał Domański: Tak, one faktycznie mówią po polsku, ale nie myślą po polsku. Ktoś podał takie fajne porównanie, że to jest taki Amerykanin, który całe życie spędził w Ameryce, ale zna język polski. I on będzie używał języka polskiego, ale często może używać zwrotów, które u nas nie są powszechnie stosowane. On może stosować logikę, która jest jedynie przedstawiona w polskim języku, ale to będzie logika amerykańska.
Jeślibyśmy poprosili czata, że: „hej, napisz mi rozmowę między dwoma polskimi emerytami”, on tę rozmowę napisze. Tylko że ta rozmowa będzie w stylu: „Cześć, co u ciebie, super? Tak, fajnie, idę do wnuków”. Takie „Hi, how are you doing, yeah, it’s wonderful”, z takim entuzjazmem amerykańskim. Możemy trochę z przymrużeniem oka powiedzieć, że rozmowa polskich emerytów standardowo jednak ma trochę inny wydźwięk, inny klimat: co mnie boli, jaka kolejka do lekarza itd.
Bielik to platforma rozwoju polskich AI
No dobrze, a jak już mamy ten polski model językowy, to w jakich zastosowaniach możemy go użyć?
MD: Trochę nam medialnie Bielik wybuchł ostatnio i bardzo dużo treści pojawiło się na jego temat czy to na LinkedInie, czy w gazetach.
I trochę mam jednak czasami takie poczucie, że za bardzo staramy się Bielika porównywać do ChatGPT, który jest sztuczną inteligencją wytrenowaną za miliardy dolarów, która ma być modelem do ogólnego użytku.
W przypadku Bielika to, co dostajemy w formie czata chat.bielik.ai, to jest forma pokazania możliwości modelu, przetestowania go, pobawienia się nim.
Musimy jednak pamiętać, że Bielik to platforma do rozwoju polskiego AI, którą organizacje dostosowują do własnych potrzeb. Bielik to niewielki model, a małe modele mają moc w tym, że można je wziąć i dostosowywać do swoich wymagań, tak aby one były świetne w realizowaniu konkretnych bardzo zadań.
Czyli nie tak, jak mamy w ChatGPT, który stworzy nam tekst piosenki, wygeneruje kod, sprawdzi projekt biznesowy oraz jeszcze zrobi przegląd wszystkich badań naukowych.
W przypadku Bielika jest inaczej. Bierzemy go do organizacji i analizujemy, w którym procesie chcemy go użyć i dotrenowujemy go do tego konkretnego zadania. Ten proces dostrajania będzie trochę trwał, ale dzięki niemu mamy już nie tego stażystę praktykanta, jakim jest model językowy ogólnego przeznaczenia, tylko specjalistę w konkretnej dziedzinie.
Jako że Bielik jest modelem otwartym, każdy może go sobie pobrać, każdy go może zainstalować u siebie na serwerze i podpiąć całą infrastrukturę firmową tak, żeby ten obieg informacji zachowany był jedynie wewnątrz firmy.
W firmie może nawet być kilka takich rozwiązań, każde oparte o Bielika, każde z nich oparte na osobnym modelu, który jest dostosowany pod konkretne zadanie.
A dodatkowo, jeśli wszystko to zrobimy na własnym sprzęcie, to będzie to i bezpieczniejsze, i tańsze.
A tak konkretniej – gdzie Bielik byłby najbardziej przydatny?
MD: Gdzie to się najlepiej sprawdza? Na pewno wszędzie tam, gdzie informacja jest poufna, gdzie są dane osobowe, gdzie są dane medyczne, gdzie jest tajemnica przedsiębiorstwa, której nie chcemy wyprowadzać na zewnątrz.
Jeżeli chodzi o typ zadań, do jakich nadaje się model taki jak Bielik, to przede wszystkim przetwarzanie tekstu: przeróżne streszczenia, podsumowania, analizy transkrypcji, analizy sentymentów.
Taka moja osobista uwaga. Ostatnio zauważyłem rekomendację jednej grupy roboczej przy Ministerstwie Cyfryzacji, gdzie właśnie ich jedną z rekomendacji było to, żeby procesować dokumenty administracyjne modelami amerykańskich spółek. Z mojej perspektywy jest to jednak dość znacznym ryzykiem.
… ale też brama dla zagranicznych AI
Na swoim LinkedInie poruszył pan ciekawy wątek – że modele takie jak Bielik mogą umożliwić wejście do Polski firmom AI z zagranicy, na przykład z krajów bałtyckich…
MD: Jest taki łotewski startup, który zajmuje się analizą, głównie emocjonalną, transkrypcji rozmów z działów obsługi klienta. Konsultant nie musi mieć menedżera, który się wdzwania na cichej słuchawce i słucha, jak on tam rozmawia, tylko dostaje po każdym takim spotkaniu informację: „Słuchaj, tutaj gadałeś 5 minut, potencjalnie straciłeś lekkie zainteresowanie petenta, tutaj petent był sfrustrowany, tutaj petent był zadowolony z tego, że dobrze odpowiedziałeś na pytanie”.
Jak rozmawiałem z Evaldsem Urtansem, czyli z założycielem tego startupu, o Bieliku, jemu się trochę oczy zaświeciły, ponieważ on wprost powiedział, że tak, Polska jest dużym rynkiem, ale on nie za bardzo miał pomysł na to, jak tam wejść. No bo jednak, nie oszukujmy się, my mamy trochę inną manierę.
I to jest fascynujące wśród startupów z krajów bałtyckich, że one z racji tego, że jest tam mały rynek własny, od razu myślą o tym, jak wychodzić na rynki zagraniczne. Więc warto im pokazywać, że jesteśmy w stanie otworzyć im rynek polski poprzez zlikwidowanie tej bariery wejścia.
W tym momencie samych startupów wykorzystujących sztuczną inteligencję powstaje tysiące dziennie. Tylko że w większości te startupy budują swoje rozwiązania o modele dostarczane przez spółki amerykańskie, ewentualnie francuskiego Mistrala, który też jest w sumie anglojęzyczny.
No i dla nich takim domyślnym stanem jest wyjście na Wielką Brytanię, na Amerykę, bo ten model najlepiej sobie tam daje radę. Żeby wchodzić jednak na rynki lokalne, no to trzeba znać kontekst kulturowy.
Bielik jako platforma AI w firmie – czego potrzebujemy, na jaką pomoc możemy liczyć?
Wróćmy na krajowe podwórko. Powiedzmy, że jakaś firma chciałaby skorzystać z Bielika. Jaki sprzęt byłby takiej firmie potrzebny do testowania Bielika, a jaki trzeba by mieć, by korzystać z modelu w tzw. środowisku produkcyjnym?
MD: Żeby korzystać z pełnej mocy Bielika, w postaci nieskwantyzowanej, z tym oknem kontekstowym na 32 tysiące tokenów – z moich doświadczeń wynika, że mniej więcej potrzebuję karty graficznej z minimum 24 GB pamięci RAM. I taka maszyna jest w stanie ten pełny model uciągnąć.
Można go pobrać, jest na Hugging Face, i zainstalować przez bibliotekę Pythona, można to też zrobić przez LM Studio.
Jeśli nie mamy tyle pamięci RAM, to raczej powinniśmy patrzeć w stronę modeli skwantyzowanych. One są dostarczane równolegle i rozwijane razem z tym modelem właściwym.
Jeśli chodzi o takie wdrożenia biznesowe, na przykład na własnym serwerze w firmie, na własnej maszynie, z której mogłaby firma korzystać, to tutaj minimum, jakie jest dla pełnego modelu, to jest ok. 48 GB pamięci w naszej karcie graficznej.
A jeśli firma chciałaby wdrożyć Bielika jako platformę do AI, to na jaką pomoc może liczyć?
MD: Fundacja Spichlerz, współtwórca Bielika, może zapewnić wsparcie merytoryczne, możemy doradzić, polecić przykładowo, jak zainstalować tę infrastrukturę, jakich dostawców wybrać, czy to rozwiązań chmurowych, czy to rozwiązań on premise, czyli na infrastrukturze własnej firmy.
To jest działalność stricte pro bono, taki program wsparcia, ale jedynie na poziomie właśnie merytoryczno-doradczym.
Jako Fundacja Spichlerz my nie przeprowadzamy żadnych wdrożeń komercyjnych, nie prowadzimy prac programistycznych, wdrożeń u klienta, u osoby, która wnioskuje właśnie o taką pomoc.
Osoba wnioskująca o program wsparcia musi mieć po swojej stronie programistów, musi zadbać o infrastrukturę, całe wdrożenie, o wszystko, co jest związane ze stworzeniem tego rozwiązania u siebie. My jedynie możemy przyjść i doradzić, co byśmy chcieli – żeby te podmioty używały naszej technologii i żebyśmy mogli powiedzieć o tym wdrożeniu światu.
Bo to jest bardzo widoczne w środowisku AI-owym, że dużo osób pyta właśnie o biznes, o wdrożenia, gdzie to można wdrożyć, w jaki sposób można to zastosować.
Więc potrzebujemy po prostu historii sukcesu, o których moglibyśmy głośno mówić.
To teraz porozmawiajmy chwilę o technikaliach Bielika. Model ma 11 mld parametrów, ale podobno – tak twierdzi jego profil na Hugging Face – został zainicjalizowany na Mistralu 7B – a więc modelu o 7 mld parametrów. Jak z modelu 7B robi się model 11B?
MD: Istnieje taka metoda, zwana depth upscaling, która w dużym uproszczeniu polega na tym, że wykonujemy kopię modelu, wycinamy z tego modelu pewne części i sklejamy je ponownie w kolejny, większy model.
To jest taka operacja na otwartym mózgu, gdzie najpierw go trochę lobotymizujemy, a potem w kilku kolejnych krokach od nowa zaczynamy tę taką bazową edukację, że bierzemy sam szkielet, w którym przykładowo są jakieś wagi bazowe, ale następnie uczymy go już w oparciu o ten zestaw danych polskich.
A co będzie dalej? Jakie będą kolejne wersje Bielika? Współzałożyciel Spichlerza Sebastian Kondracki wspominał na LinkedInie o modelu multimodalnym i o modelu 70B. Oczywiście, nie wiemy, czy nie żartował…
MD: Pewnie nie żartował, jednak jesteśmy otwartą społecznością i konkretne plany mogą się zmieniać. Swojego czasu żartował, że nie da się zrobić LLM-u bez budżetu…
Niemniej! Nad konkretnymi planami strategicznymi, road mapami cały czas pracujemy, ponieważ nie ma co ukrywać, zainteresowanie jest dziś ogromne, a też, nie oszukujmy się, dobry odbiór modelu dodaje skrzydeł.
Ekipa jest bardzo chętna, żeby działać dalej, żeby budować.
Michał Domański to organizator stołecznych wydarzeń Masovian AI Fest łączących środowiska biznesowe i naukowe w zakresie sztucznej inteligencji. Badacz ekosystemów innowacji, mentor startupowy. Mówca publiczny i warsztatowiec z zakresu introwertycznego networkingu. Współautor algorytmu matchmakingowego ComeNetworkWithUs. W SpeakLeash Michał działa jako ambasador polskiego AI zarówno w Polsce, jak i za granicą. Członek grupy odpowiedzialnej za relacje biznesowe.
Zdjęcie: archiwum własne Michała Domańskiego