Niestraszne jej "dżdżownica" ani "gżegżółka". Qra – pierwsza sztuczna inteligencja, która dobrze zna język polski
2024-03-21, 18:03 | aktualizacja 2024-03-21, 21:03
Naukowcy z Politechniki Gdańskiej i AI Lab z Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego opracowali polskojęzyczne generatywne modele językowe, które zostały utworzone na podstawie zestawu danych zawierającego teksty wyłącznie w języku polskim. Upraszczając: Qra, bo taką nazwę ma ten model, to pierwsza sztuczna inteligencja znająca język polski w tak szerokim zakresie.
- Qra jest pierwszym modelem sztucznej inteligencji ćwiczonym specyficznie na języku polskim, znającym go i operującym nim w tak szerokim zakresie.
- Sama nazwa, choć w języku polskim brzmiąca zabawnie i wywołująca określone skojarzenia, po angielsku jest neutralna. Jest za to krótka, prosta, łatwa do wpisania w internecie i zapamiętania.
Celem projektu było stworzenie takiej sztucznej inteligencji, która widziała bardzo dużo tekstów polskojęzycznych. Problemem jest bowiem fakt, że modele, które znamy i których używamy, np. Chat GPT, w 95 proc. były uczone na języku angielskim, czyli widziały teksty anglojęzyczne. Jest w nich zaledwie ok. 5-7 proc. innych języków, w tym polskiego – ułamek procent. A to oznacza, że te modele widziały bardzo mało języka polskiego.
Unikalny korpus wysokiej jakości języka
Przewagą Qry nad modelami zachodnimi nie jest to, że na pytanie zadane po polsku odpowiada po polsku, gdyż one także to robią. Ważniejszy jest fakt, że odpowiada językiem lepszej jakości, bardziej spójnym i poprawnym, z mniejszą liczbą błędów gramatycznych. W jaki sposób to osiągnięto?
– Chcieliśmy, aby nasz model zobaczył olbrzymi korpus tekstów polskojęzycznych, i te kwestie dotyczące zwrotów językowych, dialektu i kultury były w większym stopniu zaadresowane niż w modelach anglojęzycznych. Zebraliśmy korpus liczący ok. 2 TB tekstów polskojęzycznych. Później go jeszcze czyściliśmy i normalizowaliśmy, gdyż chcieliśmy uzyskać unikalny korpus wysokiej jakości języka i tekstów, aby na tym korpusie wyuczyć Qrę – tłumaczy dr Marek Kozłowski z Ośrodka Przetwarzania Informacji AI Lab. – I jeżeli zobaczymy, jaką Qra ma zdolność tworzenia prozy i opowieści, to jest to bardzo wysoka jakość języka polskiego. Jest on bardzo płynny i spójny, z bardzo małą ilością błędów gramatycznych – zapewnia.
Nazwa prosta, krótka i łatwa do zapamiętania
Nazwa Qra jest analogią do modeli anglojęzycznych, których nazwy pochodzą od zwierząt kopytnych, np. Alpaca AI, Lama AI czy Vicuna AI. – Chcieliśmy wybrać zwierzę z polskiej kultury, z którym obcujemy na co dzień, miało to też mieć związek z polskim folklorem. Dodatkowo nazwa musiała być krótka, trzyliterowa – wyjaśnia dr Marek Kozłowski. – Nie baliśmy się, że to będzie śmiesznie brzmiało, bo w anglojęzycznym świecie jest to niezrozumiałe. Ale jest proste, krótkie, łatwe do wpisania w internecie i zapamiętania – wskazuje.
Przeczytaj także
- Kto jest lepszy: sztuczna inteligencja czy ludzki mózg? Odpowiedź jest znana
- Czy AI jest seksistowska i rasistowska? Tak wynika z badań polskich naukowców
- Sztuczna inteligencja. Futurolog: w obecnej postaci jest pożądana i pomocna, ale może się wymknąć spod kontroli
Posłuchaj
***
Tytuł audycji: Trójka przed południem
Prowadzi: Witold Lazar
Gość: dr Marek Kozłowski (Ośrodek Przetwarzania Informacji AI Lab)
Data emisji: 21.03.2024
Godzina emisji: 10.43
pr/kormp