Phi-3-mini to nowy model językowy z grupy SLM stworzony przez Microsoft. Dysponuje on umiejętnościami językowymi, matematycznymi i kodowania. Phi-3-mini posiada 3,8 miliarda parametrów. Powstał jako jeden z trzech nowych małych modeli językowych od Microsoftu: Phi-3-mini, Phi-3-small (7B) oraz Phi-3-medium (14B). Phi-3-mini jest już dostępny na platformie usług chmurowych, w katalogu modeli AI Microsoft Azure, na platformie modeli uczenia maszynowego Hugging Face oraz w Ollama, frameworku do uruchamiania modeli na maszynie lokalnej.
Co to jest SLM i czym różni się od LLM?
SLM, czyli Small Language Model to modele językowe tworzone z wykorzystaniem mniejszej, bardziej precyzyjnej bazy danych. SLM powstało w przeciwieństwie do LLM (Large Language Model), które trenuje się na ogromnej ilości danych z sieci.
Na pomysł stworzenia SLM Phi-3-mini wpadł Ronen Eldan, ekspert ds. sztucznej inteligencji w Microsoft. Kiedy czytał swojej córce bajki na dobranoc, zaczął się zastanawiać, ile AI może się nauczyć, znając tylko słowa zrozumiałe dla 4-latki? Na tym opiera się innowacyjne – zdaniem Microsoftu – podejście do trenowania modelu.
– Nie mamy wystarczającej liczby książek dla dzieci, więc wzięliśmy listę ponad 3000 słów i poprosiliśmy LLM o stworzenie „książek dla dzieci” do nauczania Phi – wspomina Eric Boyd, wiceprezes Microsoft Azure AI Platform, w rozmowie z The Verge.
Przechodząc przez kolejne etapy szkoleń (szczegółowy opis znajdziesz na stronie Microsoft), od powstania bazy TinyStories, przez ręczne testy i walidacje, aż po gotowy produkt: SLM Phi-3-mini w kwietniu 2024 r. stał się rzeczywistością.
Co potrafi Phi-3-mini, nowy model AI od Microsoft?
Microsoft przekazał w swoim oświadczeniu, że nowy model może przewyższać swoje większe odpowiedniki. Wszystko za sprawą mniejszej, ale bardziej precyzyjnej bazy danych, na których SLM był trenowany.
Choć Phi-3-mini przegrywa w testach wiedzowych, to okazuje się bardzo sprawny w zadaniach biurowych, marketingowych, copywritingu, analizie tekstu itd. Do umiejętności Phi-3-mini zalicza się tworzenie treści, postów na media społecznościowe, podsumowywanie głównych punktów długiego dokumentu, wybieranie spostrzeżeń i trendów z raportów i badań oraz wiele więcej.
Dlaczego potrzebujemy mniejszych modeli sztucznej inteligencji SLM?
Mniejsze modele sztucznej inteligencji powstają, by wykonywać prostsze zadania. Szkolone na mniejszej liczbie danych, posiadają mniej parametrów, a co za tym idzie, są bardziej ekonomiczne, ekologiczne i po prostu szybsze. SLM, takie jak Phi od Microsoftu, są łatwiejsze do użycia przez firmy o ograniczonych zasobach. Ponadto SLM lepiej działa na laptopach i urządzeniach mobilnych, a nawet potrafi działać bez internetu! Ich lokalność ma jeszcze jedną zaletę – SLM są lepszym rozwiązaniem w oprogramowaniu, w którym kluczową rolę gra bezpieczeństwo danych. Natomiast bardziej precyzyjna, mniejsza baza uczenia sprawia, że modele SLM są mniej podatne na halucynacje.
– Phi-3 nie jest nieco tańszy, jest znacznie tańszy! Mówimy o 10-krotnej różnicy kosztów w porównaniu z innymi modelami o podobnych możliwościach – powiedział Sébastien Bubeck, wiceprezes Microsoftu ds. badań GenAI cytowany przez Reuters.
Mniejsze modele AI – co jest dostępne na rynku oprócz Phi-3-mini?
Na rynku istnieją już inne modele SLM – jak choćby Gemma 2B i 7B od firmy Google albo Claude 3 Haiku od Anthropic. Są to rozwiązania, które nie są konkurencją dla dużych LLM. SLM nie radzą sobie ze wszystkim – przegrywają przede wszystkim w sytuacjach, w których istotne jest, by AI posiadało szeroką wiedzę z wielu tematów. Jednak SLM to właśnie to, na co czekało wielu przedsiębiorców – to tańsze, bardziej dostępne AI.
Autor zdjęcia : Vitalii Vodolazskyi