Bielik a chat GPT – podstawowe różnice
– Zbiór danych zasilających Bielika cały czas rośnie, jednak trudno będzie nam się ścigać z zasobami wykorzystywanymi przez inne modele, które funkcjonują w języku angielskim. Poza tym liczba treści w internecie, która funkcjonuje w języku polskim jest znacznie mniejsza niż w angielskim – wyjaśniają twórcy.
Najbardziej popularnym produktem wykorzystującym duży model językowy jest ChatGPT, który powstał w oparciu o zasoby firmy OpenAI. Konieczność opracowywania modeli językowych w różnych innych językach znajduje jednak swoje uzasadnienie.
Marek Magryś, zastępca Dyrektora ACK Cyfronet AGH ds. Komputerów Dużej Mocy podkreśla: – O ile ChatGPT potrafi mówić w języku polskim, to nasycony jest treściami w języku angielskim. W związku z tym ma nikłe pojęcie na temat np. polskiej kultury czy niuansów polskiej literatury. Nie do końca też sobie radzi ze zrozumieniem logiki bardziej skomplikowanych tekstów np. prawnych czy medycznych. Jeśli chcielibyśmy zastosować go w tych właśnie specjalistycznych obszarach i mieć model językowy, który dobrze rozumuje w języku polskim i odpowiada poprawną polszczyzną, to nie możemy opierać się wyłącznie na zagranicznych modelach językowych.
Wersja, którą mogę testować użytkownicy jest utrzymywana nieodpłatnie w domenie publicznej i jest wciąż udoskonalana. Autorzy udostępnili, oprócz pełnych wersji opracowanych modeli, także całą gamę wersji skwantyzowanych w najpopularniejszych dostępnych formatach, które umożliwiają uruchomienie modelu na własnym komputerze.
– Warto wiedzieć, że Bielik będzie bardzo dobrze sprawdzał się w zakresie np. streszczania treści. Już w tym momencie nasz model ma swoją użyteczność
w obszarze naukowym oraz biznesowym, może służyć na przykład do usprawnienia komunikacji z użytkownikami podczas obsługi zgłoszeń w Helpdesku – wyjaśnia Szymon Mazurek z ACK Cyfronet AGH.
Dlaczego warto budować polskie modele językowe?
Twórcy Bielika wyjaśniają, że usługi sztucznej inteligencji funkcjonujące w internecie, w tym te najpopularniejsze jak ChatGPT, utrzymywane są na serwerach zewnętrznych. Jeśli jakaś firma czy branża rozwija rozwiązanie, które operuje na specjalistycznych danych np. medycznych lub na tekstach, które z różnych powodów nie mogą opuścić firmy, np. są poufne, to jedyną możliwością jest uruchomienie takiego modelu u siebie. Ten model nie będzie tak doskonały jak ChatGPT, ale nie musi też być tak bardzo ogólny.
Dodatkową korzyścią płynącą z uruchomienia modeli językowych typu Bielik jest wzmocnienie pozycji Polski w obszarze innowacji w sektorze AI. Ponadto, co podkreślają twórcy, warto zabiegać o to, aby budować własne narzędzia i tym samym uniezależniać się od zewnętrznych firm, które w przypadku zawirowań na rynkach, regulacji czy ograniczeń prawnych mogą np. uniemożliwiać dostęp do swoich zasobów. Tym samym rozwijając i udoskonalając narzędzia w Polsce, budujemy stabilne zaplecze i jesteśmy w stanie zabezpieczać wiele naszych sektorów – bankowy, administracyjny medyczny lub prawniczy.
– Intensywne działania nad rozwojem AI, modelami językowymi typu Bielik czy innymi narzędziami opartymi o sztuczną inteligencję są w interesie wszystkich dobrze działających gospodarek. Obserwujemy wzmożone prace nad tego typu rozwiązaniami w wielu krajach – wyjaśnia Jan Maria Kowalski z Fundacji Speakleash.
***
Ostatni fragment, wyjaśniający dlaczego warto opracowywać modele językowe w językach innych niż angielski został wygenerowany przez Bielika:
Opracowywanie modeli językowych w językach innych niż angielski może przynieść wiele korzyści, zarówno w badaniach lingwistycznych, jak i w praktycznych zastosowaniach technologii. Oto kilka powodów, dla których warto to robić:
- Lepsze zrozumienie różnorodności językowej: modele językowe oparte na angielskim mogą nie uwzględniać w pełni specyfiki innych języków, co prowadzi do uprzedzeń lub niedokładności w rozumieniu i tłumaczeniu treści
w innych językach. Rozwijanie modeli dla innych języków pozwala na lepsze zrozumienie ich gramatyki, słownictwa i kontekstu kulturowego. - Poprawa jakości tłumaczeń: modele językowe odgrywają kluczową rolę
w automatycznym tłumaczeniu tekstów. Opracowując modele dla mniej popularnych języków, można poprawić jakość tłumaczeń, eliminując błędy
i niejasności wynikające z braku zrozumienia specyfiki tych języków. - Wsparcie dla społeczności językowych: rozwijanie modeli językowych dla mniejszościowych języków może mieć pozytywny wpływ na te społeczności, ułatwiając komunikację i dostęp do informacji w ich rodzimym języku.
- Otwieranie drzwi do badań nad różnorodnością językową: modele językowe mogą pomóc w badaniu podobieństw i różnic między językami, co jest kluczowe dla zrozumienia ewolucji i dywergencji języków na całym świecie.
- Ulepszanie narzędzi AI: rozwój modeli językowych w różnych językach poszerza zakres zastosowań technologii AI, umożliwiając tworzenie bardziej zaawansowanych systemów wykorzystujących języki naturalne w sposób bardziej precyzyjny i trafny.
- Chronienie językowej różnorodności świata: popularyzacja języków obcych często prowadzi do marginalizacji lokalnych dialektów i języków. Rozwijanie modeli językowych dla mniej znanych języków może pomóc w ochronie różnorodności językowej na całym świecie.
Przydatne linki:
Możliwość testowania Bielika: https://bielik.ai/
Aktualna liczba zebranych danych: https://speakleash.org/dashboard/