Sylwia Błach: Co słychać u naszego ulubionego polskiego orła? Wystartował bardzo hucznie, ale ostatnio, poza technologicznymi konferencjami, mało o nim słychać…
Marcin Dąbrowski: To trochę wynika z faktu, że Bielik nigdy nie powstawał jako alternatywa do popularnych modeli ogólnego zastosowania. Bielik nie jest konkurencją dla GPT, modeli od Google itd. Bielik jest modelem dużo mniejszym, ale mającym kilka kluczowych przewag. Pierwszą z nich jest obsługa języka polskiego, a wraz z nią rozumienie kontekstu polskiej historii i kultury.
Ponadto, korzystając z Bielika, możemy przetwarzać poufne dokumenty w bezpieczny sposób, bo lokalnie. Bielik nie jest podłączony do internetu, jest dużo węższym modelem niż ChatGPT, jeżeli chodzi o zastosowanie. Ale też jest znacząco bezpieczniejszy. Dlatego najczęściej znajdziesz nas na konferencjach technologicznych, takich jak InfoShare. Główny kierunek to zastosowania biznesowe, wdrażanie Bielika w urzędach, w firmach, w bankach.
SB: Głośno było o wdrożeniu waszego modelu w ZUS-ie, gratulacje! Czy to oznacza, że obywatelowi spoza świata przedsiębiorczości i biznesu Bielik AI do niczego się nie przyda?
MD: Ależ skąd! Oczywiście, jesteśmy wdrożeni w polskich bankach, powstają też startupy korzystające z Bielika, ale nic nie stoi na przeszkodzie, żeby taki model zainstalować sobie lokalnie i korzystać z jego możliwości. Przyda nam się w każdej sytuacji, w której polski kontekst ma znaczenie: Bielik wygeneruje spersonalizowane życzenia na Pierwszą Komunię Świętą albo ślub. Pomoże przeanalizować wyniki badań, które wiążą się z naszą kulturą. Może nam też pomóc w generowaniu zadań dla dziecka z języka polskiego, bo Bielik napisze tekst poprawną polszczyzną. Albo z historii, bo rozumie kontekst. Zapraszam każdego do przetestowania i sprawdzenia, co Bielik może dla niego zrobić. Rozwiązanie dostępne jest na chat.bielik.ai i hostowane jest w Polsce, w krakowskim Cyfronecie.
SB: Sporo tych możliwości! Na InfoShare macie właśnie premierę ebooka o sztucznej inteligencji „Bielik i modele kompaktowe w praktyce”, który pomaga te możliwości zrozumieć i wykorzystać.
MD: Tak, to jest taka pigułka, chociaż bardziej mogę powiedzieć piguła, bo to jest ponad 100 stron! Czytając, idziemy od ogółu do szczegółu, najpierw poznajemy historię Bilika. Dowiadujemy się, czym w ogóle są modele językowe, jak zacząć przygodę lokalną z takimi modelami językowymi. To dużo więcej niż podstawy AI, ale jednocześnie zadbaliśmy o to, żeby nawet zaawansowane informacje przedstawić prostym, zrozumiałym językiem. Chodzi o to, żeby każdy mógł zrozumieć, jak w ogóle zabrać się do modeli językowych.
SB: Na InfoShare jest też Obywatel Bielik. Multimodalny, multiwizyjny, w jego opisie pada dużo mądrych słów. Czym właściwie jest Obywatel Bielik i co jego rozwój oznacza dla ludzi, którzy już teraz korzystają ze znanych, zagranicznych modeli AI?
MD: Zróbmy eksperyment. Sprawdźmy te zagraniczne modele, jak sobie radzą z kontekstem polskiej kultury, historii i tradycji zapisanych w obrazach. Zachęcam, by samemu najpierw przetestować możliwości AI i wysłać do takiego modelu jakieś zdjęcie historyczne albo mocno związane z Polską. I sprawdzić, jak te modele rozpoznają te zdjęcia.
Weźmy przykład klusek śląskich, typowo polskiego dania. Bardzo często zagraniczne modele mówią, że to są jakieś francuskie makaroniki albo surowe pączki do przesmażenia. My chcemy to zmienić. Chcemy stworzyć taki model, który będzie rozpoznawał obrazy, uwzględniając właśnie ten kontekst kulturowy, historyczny, tradycje związane z Polską. To bardzo ważne, bo aktualnie modele językowe, szerzej: sztuczna inteligencja, nie tylko odpowiada na pytania, ale także prowadzi pewną narrację historyczną.
SB: Podczas prezentacji na InfoShare w Gdańsku pokazywałeś przykłady tej narracji historycznej prowadzonej przez AI.
MD: Tak, pokazywałem przykłady, które obrazują skalę problemu. Do jednego z popularnych AI wysłałem zdjęcie z obrony Poczty Gdańskiej z 39 września. AI rozpoznał, że to jest wojna, poczta, 39 września… Ale jako lokalizację podał Bydgoszcz. Mocne przekłamanie historyczne, prawda?
Inny przykład z Warszawy. Wysłałem zdjęcie osoby, która maluje na ścianie symbol polski walczącej, kotwicę. Inny zagraniczny model, powiedział, że to jest logo youtubera PewDiePie. Tymczasem logo tego youtubera to zaciśnięta pięść.
SB: Spora pomyłka…
MD: I niezbyt śmieszna. Dlatego inspirując się modelem Bielik, który świetnie rozumie kontekst, historię i tradycję, ale jest tylko modelem językowym, chcemy iść dalej i sprawić, by narracja zapisana w obrazach także była rozpoznawana.
SB: Do tego potrzebujecie bardzo dużo opisanych zdjęć, czyli danych.
MD: Tak i tutaj wkracza nasza społeczna akcja Obywatel Bielik. Chcemy zaprosić obywateli do tworzenia polskiej sztucznej inteligencji. Trenowanie modeli jest trochę ekskluzywne, my chcemy, by było inkluzywne. Żeby każdy z nas bez względu na wiek, doświadczenie, umiejętności mógł się włączyć w ten proces.
Żeby wytrenować taki model, potrzebujemy kilka milionów opisanych zdjęć. Opis zdjęcia polega na tym, że po prostu musimy opisać słownie to, co widzimy na zdjęciu, zupełnie tak, jakbyśmy chcieli komuś opowiedzieć to zdjęcie przez telefon. Skupiając się tylko na faktach, na tym, co widzimy, unikając emocji typu „piękne drzewo” ponieważ piękne jest przymiotnikiem subiektywnym, a opis ma być totalnie obiektywny. W związku z tym tworzymy i rozkręcamy taką akcję społeczną związaną właśnie z Obywatelem Bielikiem! Naszym celem jest multimodal, misją jest szerzenie AI i większa inkluzywność. By to wszystko uzyskać stworzyliśmy narzędzie – aplikację Obywatel Bielik.
SB: Obywatel Bielik zadebiutuje za kilka tygodni. Do czego, tak konkretnie, będzie ta aplikacja służyć?
MD: Obywatel Bielik to projekt społeczny pozwalający każdemu zaangażować się w tworzenie polskiego modelu językowego. Dzięki aplikacji, zarówno dostępnej z poziomu komputera, jak i smartfona, każdy obywatel będzie mógł przesyłać, a także opisywać zdjęcia.
Opisywanie zdjęcia możemy wykonać na dwa sposoby. Możemy po prostu napisać tekst, ale możemy także użyć technologii rozpoznawania mowy, czyli po prostu opowiedzieć to, co widzimy na tym zdjęciu, a aplikacja przetworzy to na tekst. Dodatkowo w aplikacji będzie zaimplementowany model Bielik, który to, co opisaliśmy, wygładzi pod względem interpunkcyjnym, językowym.
I dzięki takiemu zdjęciu i jego opisowi, stworzymy wspólnie dataset treningowy.
SB: Obywatele pomogą wam… A jak wy pomożecie im?
MD: Mamy kilka pomysłów, wciąż je rozbudowujemy. Jeden z ważniejszych to zwiększenie dostępności cyfrowej dla osób w jakiś sposób wykluczonych. Na przykład osób z niepełnosprawnością wzrokową. Współpracujemy z Narodowym Archiwum Cyfrowym, które ma miliony nieopisanych, albo opisanych bardzo zdawkowo, zdjęć historycznych. Osoba z niepełnosprawnością wzrokową nie jest w stanie dowiedzieć się, co jest na tym zdjęciu, bo zdjęcie nie ma opisu. My, dzięki nawiązanej współpracy, otrzymamy zdjęcia od Narodowego Archiwum Cyfrowego i wierzymy, że obywatele zechcą wspomóc projekt i je opisywać. Wszyscy wygrywają: my mamy dataset z fajnie opisanymi zdjęciami historycznymi, a NAC ma od nas opisy, by móc zwiększyć dostępność swojego archiwum. Co więcej, w przyszłości, gdy ten model powstanie, instytucje związane z historią będą mogły używać go do automatycznego opisywania zdjęć archiwalnych, bo nasz model będzie rozumiał kontekst historyczny i geograficzny.
Kolejna grupa wykluczona cyfrowo, z którą chcemy współpracować, to seniorzy. Jesteśmy już po pierwszych spotkaniach i prelekcjach na Uniwersytetach Trzeciego Wieku i z radością powiem, że seniorzy są zapaleni do tej akcji! To nasi modelowi użytkownicy, bo mają czas, ale przede wszystkim mają wiedzę historyczną, dzięki której tą pamięć i tożsamość zamkniemy w cyfrowej formie wewnątrz modelu.
SB: Pomysł jest świetny, idea szczytna, zastosowania przydatne i inkluzywne… Ale na świecie trenerom AI się płaci. Wy chcecie namówić obywateli, by zostali darmowymi trenerami AI. Jak zamierzacie to zrobić?
MD: To świetne i bardzo ważne pytanie. W naszym DNA „bielikowym” mamy wpisane podejście społeczne. Wszystko co powstało dotychczas, powstało rękami community w wolnym czasie, w ramach wolontariatu. Zaproszenie do działania pro bono jest w naszym DNA. To się nam sprawdza. Widzimy efekty i na własnej skórze przekonaliśmy się jak Wielka energia i chęć do działania drzemie wśród nas, wśród Polaków!
Jesteśmy świadomi, że potrzebujemy dużej skali, więc na początku będzie musiała wystarczyć satysfakcja, że rozwijamy polską sztuczną inteligencję, ale gdzieś w dalszym procesie rozwoju tej aplikacji planujemy wprowadzić grywalizację. Prawdopodobnie zaczniemy od nagród cyfrowych, czyli odznak, cyfrowych poświadczeń wkładu w rozwój polskiej AI, ale gdzieś na horyzoncie mamy także mikropłatności albo mikrouznanie w formie materialnej, na przykład bilety do kina, do muzeów, do instytucji, które z nami współpracują, książki z autografami osób, które kibicują Bielikowi.
Chcemy wynagradzać obywateli za działanie, ale jako fundacja, która działa pro bono, musimy pamiętać, że model finansowy jest trudny do realizacji.
SB: A jak ludzie reagują na ten pomysł?
MD: Gdy jeżdżę po Polsce i mówię o tym projekcie, na przykład na takich konferencjach jak InfoShare, to widzę ogromny entuzjazm! Powiem od siebie, że jestem wręcz przekonany, że odzew Polaków będzie naprawdę duży, bez względu na te gratyfikacje finansowe. Choć, oczywiście, mam jednocześnie świadomość, że na takich wydarzeniach, jak to, jesteśmy w pewnej bańce osób zmotywowanych i chętnych, by budować polskie AI.
SB: Cieszy mnie to! Nie boicie się jednak, że gdy wypłyniecie na szersze wody, to internauci będą chcieli was trollować? Chyba każdy zna historię z 2016 roku. Tay, czatbot stworzony przez Microsoft, mający uczyć się od ludzi zachowań i języka w czasie rzeczywistym, w mniej niż dobę został rasistą, mizoginem i nazistą.
MD: Mamy świadomość, że istnieją takie zagrożenia, ale zrobimy co w naszej mocy, by eliminować ryzyko. Pierwsze, najbardziej naiwne podejście: regulamin aplikacji, czyli – które zdjęcia są dopuszczone, a które nie. My nie chcemy zdjęć twarzy ludzi, zdjęć, które nawołują do przemocy czy są realnie niezgodne z ogólnie rozumianym dobrem społecznym. Ale to jest regulamin i oczywiście to by było zbyt naiwne podejście, żeby wierzyć, że regulamin nam tę kwestię załatwi. Dlatego przewidujemy dwustopniową weryfikację. Pierwsza weryfikacja to automatyczny pipeline, który przy użyciu obecnych modeli wizyjnych i modelu Bielik dokona wstępnej selekcji i wykryje zdjęcia albo opisy, które są niezgodne z regulaminem. Drugim krokiem będzie grupa moderatorów, wolontariuszy, którzy będą weryfikowali zdjęcia i czytali opisy. Ich zadaniem będzie dbanie o zgodność z regulaminem, ale także o wysoką jakość tych opisów.
SB: Od jakości dataset zależy jakość modelu, a wszyscy wiemy, że szkolenie AI wcale nie jest takie proste. Sztuczna inteligencja wciąż ma problemy z rozpoznawaniem obiektów do siebie podobnych. Ale to tylko połowa problemu! Przecież my, ludzie, też często błędnie oceniamy to, co widzimy. Taki bardzo prosty przykład: mandarynka kontra pomarańcza. Na fotografii – często identyczne. Sam na początku rozmowy wspomniałeś o symbolu Polski Walczącej i logo YouTubera. Sprawdziłam, symbol i logo nie są do siebie podobne. Ale co, gdyby były? Co z sytuacją, gdy opinie ludzi, dotyczące tego, co jest na zdjęciu, będą podzielone?
MD: To bardzo ciekawy temat! Przede wszystkim musimy mieć świadomość, że aby model nauczył się rozpoznawać jakiś obiekt, to musi zobaczyć go 10, 15, 20 i więcej razy. I, przypuśćmy, że jeśli mamy taki problem, że któreś elementy są obciążone błędem, to będziemy robić akcje celowane. Posługując się twoim przykładem, zrobimy na przykład tydzień pomarańczy i poprosimy użytkowników, by dostarczali jak najwięcej zdjęć tego owocu.
Ponadto znaczenie ma też wspomniana wcześniej weryfikacja ludzka… Myślę też, że będziemy sobie pomagać tworzeniem danych syntetycznych, bo AI trenuje się także na danych, które generuje AI. Ale oczywiście trzeba robić to w sposób rozsądny! Zakładam, że jeżeli będziemy mieć bardzo dużą grupę zdjęć opisanych, że to są pomarańcze, a tak naprawdę to mandarynki, to będziemy mogli przy użyciu istniejących modeli wizyjnych przygotować dane do treningu, które będą jakby poprawione.
Jednak to pytanie jest bardzo ciekawe i wiem, że jeszcze wiele zdobywania wiedzy przed nami!
SB: Prosicie ludzi o pomoc w opisywaniu zdjęć. Widziałam aplikację, bo jest prezentowana na InfoShare. Przyznaję, że jest bardzo intuicyjna. Ale problemem może nie być używanie aplikacji, ale stworzenie prawidłowego opisu. Sam wspominałeś, że na przykład opis nie może być nacechowany emocjonalnie.
MD: Wprowadzimy filmy instruktażowe. W tym momencie w aplikacji są miejsca z pomocą kontekstową. Chcemy robić akcje promocyjne, instruktaże. Przyszłościowo chcemy, by w aplikacji był asystent AI, który podpowie, jak poprawić opis. Na przykład powie, że należy usunąć przymiotniki, bo są zbyt nacechowane emocjonalnie. Albo spyta, co jest po lewej stronie kadru, bo opisałeś tylko prawy.
Pamiętajmy jednak, że nam nie chodzi o generowanie opisów idealnych! Potrzebujemy opisów wystarczająco dobrych.
SB: Duże, ciekawe założenia. Obywatel Bielik przechodził już testy?
MD: Tak i daje to nadzieję, że projekt się uda! Uruchomiliśmy wersję beta, która umożliwia wrzucanie zdjęć i opisywanie. Już tą aplikacją zebraliśmy blisko 18 tysięcy zdjęć! I gdy je weryfikowaliśmy, okazało się, że te problematyczne zdjęcia bądź opisy stanowią coś około promila.
Wiem, że ta kontrowersyjna narracja bywa najsilniejsza i często przykrywa tę pozytywną stronę życia. Ale ja wierzę w ludzi.
Zdjęcie z wydarzenia InfoShare

