Bielik – polski model językowy powstał w AGH - KrakowTime.pl

Akademickie Centrum Komputerowe Cyfronet AGH udostępniło zasoby obliczeniowe dwóch najszybszych aktualnie superkomputerów w Polsce – Heliosa i Atheny – do stworzenia Bielika – polskiego modelu językowego.

Bielik-11B-v2 – nowy polski duży model językowy

Bielik powstał w efekcie prac zespołu działającego w ramach Fundacji SpeakLeash oraz Akademickiego Centrum Komputerowego Cyfronet AGH i jest polskim modelem z kategorii LLM (z ang. Large Language Models), tj. dużym modelem językowym, posiadającym 11 miliardów parametrów.

SpeakLeash – grupa pasjonatów i twórców Bielika

SpeakLeash to fundacja, która połączyła ludzi bardzo różnych profesji. Grupa entuzjastów za cel postawiła sobie stworzenie największego polskiego zbioru danych tekstowych wzorując się na zagranicznych inicjatywach jak The Pile. W skład zespołu projektowego wchodzą przede wszystkim pracownicy polskich przedsiębiorstw, badacze z ośrodków naukowych oraz studenci kierunków związanych z obszarami sztucznej inteligencji. Prace zespołu nad polskim modelem językowym trwały ponad rok, a ich pierwotny zakres obejmował m.in. zbieranie danych, ich przetwarzanie oraz klasyfikację.

– Najtrudniejsze zadanie polegało na pozyskaniu danych w języku polskim. Musimy operować wyłącznie na danych źródłowych, co do których mamy pewność, jakie jest ich pochodzenie – tłumaczy pomysłodawca Bielika, Sebastian Kondracki ze SpeakLeash.

Aktualnie zasoby fundacji SpeakLeash są największym, najlepiej opisanym
i udokumentowanym zbiorem danych w języku polskim.

Helios i Athena – moce obliczeniowa dla nauki

Superkomputery z Akademickiego Centrum Komputerowego Cyfronet AGH pozwoliły projektowi Bielik rozwinąć skrzydła.

Współpraca kadry z Akademii Górniczo-Hutniczej w Krakowie z fundacją Speakleash umożliwiła wykorzystanie odpowiednich mocy obliczeniowych niezbędnych do stworzenia modelu i wsparcie zespołu SpeakLeash niezbędną wiedzą ekspercką oraz naukową gwarantując sukces wspólnego projektu.

Wsparcie zespołu ACK Cyfronet dotyczyło optymalizacji i skalowania procesów treningowych, prac nad potokami przetwarzania danych oraz rozwoju i działania metod generowania danych syntetycznych, a także prac w zakresie metod testowania modeli. Wynikiem tego jest Polski ranking modeli (Polish OpenLLM Leaderboard). Cenne doświadczenia i wiedza zebrane w wyniku tej współpracy umożliwiły zespołowi ekspertów PLGrid przygotowanie wytycznych oraz zoptymalizowanych rozwiązań w tym środowisk obliczeniowych do prac z modelami językowymi na bazie klastrów Athena i Helios dla potrzeb użytkowników naukowych.

– Zasoby Heliosa, najszybszej aktualnie maszyny w Polsce, wykorzystaliśmy do uczenia modeli językowych – precyzuje Marek Magryś, zastępca Dyrektora ACK Cyfronet AGH ds. Komputerów Dużej Mocy. – Nasza rola polega na wsparciu wiedzą ekspercką, doświadczeniem i przede wszystkim mocą obliczeniową procesu katalogowania, zbierania, przetwarzania danych oraz na wspólnym przeprowadzeniu procesu uczenia modeli językowych. Dzięki pracy zespołu SpeakLeash i AGH udało nam się stworzyć Bielika, model LLM, który doskonale radzi sobie z naszym językiem oraz kontekstem kulturowym i który może być kluczowym elementem łańcuchów przetwarzania danych tekstowych dla naszego języka w zastosowaniach naukowych
i biznesowych. Potwierdzeniem jakości Bielika są wysokie lokaty uzyskane przez model na listach rankingowych dla języka polskiego.

Moc obliczeniowa Heliosa i Atheny w tradycyjnych symulacjach komputerowych to łącznie ponad 44 PFLOPS, a dla obliczeń z zakresu sztucznej inteligencji w niższej precyzji to aż 2 EFLOPS.

– Jeśli operujemy tak dużymi danymi jak w przypadku projektu Bielik to oczywiście infrastruktura potrzebna do pracy przekracza zdolności zwykłego komputera. Musimy dysponować mocą obliczeniową potrzebną tylko do tego żeby przygotowywać dane, porównywać je ze sobą, trenować modele. Bariera dostępności tego typu superkomputerów powoduje, że mało która firma jest w stanie takie prace prowadzić samodzielnie. Szczęśliwie AGH dysponuje takim zapleczem – wyjaśnia prof. Kazimierz Wiatr, Dyrektor ACK Cyfronet AGH.

Równolegle z zasobów superkomputerów z ACK Cyfronet AGH korzysta kilka tysięcy naukowców reprezentujących wiele dziedzin. Zaawansowane modelowanie
i obliczenia numeryczne są wykorzystywane głównie w zakresie: chemii, biologii, fizyki, medycyny i technologii materiałowej, a także astronomii, geologii i ochrony środowiska. Superkomputery w Cyfronecie dostępne w ramach infrastruktury PLGrid są również wykorzystywane na potrzeby fizyki wysokich energii (projekty ATLAS, LHCb, ALICE i CMS), astrofizyki (CTA, LOFAR), nauk o Ziemi (EPOS), europejskiego źródła spalacyjnego (ESS), badań fal grawitacyjnych (LIGO/Virgo) czy biologii (WeNMR).

– Wykorzystujemy do trenowania Bielika dwa najszybsze superkomputery w Polsce, Athenę i Heliosa, ale i tak w porównaniu z infrastrukturą światowych liderów mamy dużo mniejsze zaplecze. Do tego, w tym samym czasie z zasobów superkomputerów korzysta kilkuset innych użytkowników – wyjaśnia M. Magryś. – Nasze systemy umożliwiają jednak przeprowadzenie w kilka godzin lub dni obliczeń, które na zwykłych komputerach mogłyby trwać lata lub, w niektórych przypadkach, nawet stulecia.

Bielik – polski model językowy powstał w AGH

NAJNOWSZE WIADOMOŚCI

Gala Operetkowa w Nowej Hucie – muzyczna podróż do krainy walca, czardasza i wielkich emocji

82. Tour de Pologne – zmiany w kursowaniu autobusów

Awaryjne prace na ul. Senatorskiej

Kacper Stępniak wygrywa IRONMAN 70.3 Kraków i przechodzi do historii. Polski zawodnik pokonał trasę w 3 godziny 39 minut i 40 sekund.

Obywatel Chin zatrzymany w Krakowie przez Straż Graniczną

Replika samolotu RWD-8 ukończona – już wkrótce na nowej wystawie stałej Muzeum Lotnictwa Polskiego

Nastolatek na hulajnodze trafił do szpitala po zderzeniu z autem

Turcy i Austriacy odpalili race na stadionie Wisły – zostali zatrzymani

Prawie 220 mln zł z KPO na rozwój kolei pasażerskiej i infrastruktury między Krakowem a Warszawą

Z Krakowa

Kacper Stępniak wygrywa IRONMAN 70.3 Kraków i przechodzi do historii. Polski zawodnik pokonał trasę w 3 godziny 39 minut i 40 sekund.

Obywatel Chin zatrzymany w Krakowie przez Straż Graniczną

Replika samolotu RWD-8 ukończona – już wkrótce na nowej wystawie stałej Muzeum Lotnictwa Polskiego

Turcy i Austriacy odpalili race na stadionie Wisły – zostali zatrzymani

Okolice

Kacper Stępniak wygrywa IRONMAN 70.3 Kraków i przechodzi do historii. Polski zawodnik pokonał trasę w 3 godziny 39 minut i 40 sekund.

Nastolatek na hulajnodze trafił do szpitala po zderzeniu z autem

Prawie 220 mln zł z KPO na rozwój kolei pasażerskiej i infrastruktury między Krakowem a Warszawą

Kraków – Katowice najczęściej wybieraną trasą kolejową w Polsce, a Trójmiejska SKM to najpopularniejsza kolej aglomeracyjna

Na sygnale

Nastolatek na hulajnodze trafił do szpitala po zderzeniu z autem

Turcy i Austriacy odpalili race na stadionie Wisły – zostali zatrzymani

Ponad 800 wykroczeń w rejonie krakowskich kąpielisk

Szeroko zakrojona kontrola krakowskich taksówek

NAJCZĘŚCIEJ CZYTANE

Dźwig przewrócił się w Wieliczce, jedna osoba zginęła. Zobacz nagranie z momentu wypadku. [film]

Jedna cena dla wszystkich mieszkańców

Wieliczka przekazuje działkę dla Uniwersytetu Jagiellońskiego Collegium Medicum na budowę szpitala

Nasze działy