Niestraszne jej "dżdżownica" ani "gżegżółka". Qra – pierwsza sztuczna inteligencja, która dobrze zna język polski

  • Facebook
  • Twitter
  • Wykop
  • Mail
Niestraszne jej "dżdżownica" ani "gżegżółka". Qra – pierwsza sztuczna inteligencja, która dobrze zna język polski
Qra to pierwsza AI, która tak dobrze operuje językiem polskimFoto: shutterstock/LookerStudio

Naukowcy z Politechniki Gdańskiej i AI Lab z Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego opracowali polskojęzyczne generatywne modele językowe, które zostały utworzone na podstawie zestawu danych zawierającego teksty wyłącznie w języku polskim. Upraszczając: Qra, bo taką nazwę ma ten model, to pierwsza sztuczna inteligencja znająca język polski w tak szerokim zakresie.

  • Qra jest pierwszym modelem sztucznej inteligencji ćwiczonym specyficznie na języku polskim, znającym go i operującym nim w tak szerokim zakresie.
  • Sama nazwa, choć w języku polskim brzmiąca zabawnie i wywołująca określone skojarzenia, po angielsku jest neutralna. Jest za to krótka, prosta, łatwa do wpisania w internecie i zapamiętania.

Celem projektu było stworzenie takiej sztucznej inteligencji, która widziała bardzo dużo tekstów polskojęzycznych. Problemem jest bowiem fakt, że modele, które znamy i których używamy, np. Chat GPT, w 95 proc. były uczone na języku angielskim, czyli widziały teksty anglojęzyczne. Jest w nich zaledwie ok. 5-7 proc. innych języków, w tym polskiego – ułamek procent. A to oznacza, że te modele widziały bardzo mało języka polskiego.

Unikalny korpus wysokiej jakości języka

Przewagą Qry nad modelami zachodnimi nie jest to, że na pytanie zadane po polsku odpowiada po polsku, gdyż one także to robią. Ważniejszy jest fakt, że odpowiada językiem lepszej jakości, bardziej spójnym i poprawnym, z mniejszą liczbą błędów gramatycznych. W jaki sposób to osiągnięto?

– Chcieliśmy, aby nasz model zobaczył olbrzymi korpus tekstów polskojęzycznych, i te kwestie dotyczące zwrotów językowych, dialektu i kultury były w większym stopniu zaadresowane niż w modelach anglojęzycznych. Zebraliśmy korpus liczący ok. 2 TB tekstów polskojęzycznych. Później go jeszcze czyściliśmy i normalizowaliśmy, gdyż chcieliśmy uzyskać unikalny korpus wysokiej jakości języka i tekstów, aby na tym korpusie wyuczyć Qrę – tłumaczy dr Marek Kozłowski z Ośrodka Przetwarzania Informacji AI Lab. – I jeżeli zobaczymy, jaką Qra ma zdolność tworzenia prozy i opowieści, to jest to bardzo wysoka jakość języka polskiego. Jest on bardzo płynny i spójny, z bardzo małą ilością błędów gramatycznych – zapewnia.

Nazwa prosta, krótka i łatwa do zapamiętania

Nazwa Qra jest analogią do modeli anglojęzycznych, których nazwy pochodzą od zwierząt kopytnych, np. Alpaca AI, Lama AI czy Vicuna AI. – Chcieliśmy wybrać zwierzę z polskiej kultury, z którym obcujemy na co dzień, miało to też mieć związek z polskim folklorem. Dodatkowo nazwa musiała być krótka, trzyliterowa – wyjaśnia dr Marek Kozłowski. – Nie baliśmy się, że to będzie śmiesznie brzmiało, bo w anglojęzycznym świecie jest to niezrozumiałe. Ale jest proste, krótkie, łatwe do wpisania w internecie i zapamiętania – wskazuje.

Przeczytaj także


Posłuchaj

11:19
Narodziła się Qra - pierwsza sztuczna inteligencja tak dobrze władająca językiem polskim (Trójka przed południem)
+
Dodaj do playlisty
+

***

Tytuł audycji: Trójka przed południem
Prowadzi: Witold Lazar 
Gość: dr Marek Kozłowski (Ośrodek Przetwarzania Informacji AI Lab)
Data emisji: 21.03.2024
Godzina emisji: 10.43

pr/kormp

Polecane