Modele językowe mają poważny problem. Rozumieją te słowa zupełnie inaczej niż ludzie

Ucząc się nowego języka możemy mieć problem ze zrozumieniem faktycznego znaczenia pewnych określeń. Szczególnie, gdy kontekst ich zastosowania odbiega nieco od tego, czego używamy w naszym języku ojczystym. Nic więc dziwnego, że modele pokroju ChatGPT mają jeszcze większe trudności w tym zakresie. Na problem zwrócili uwagę autorzy nowej publikacji.
...

Różnice między człowiekiem i maszyną

Ci relacjonują obecnie, że ogromnym problemem dla modeli językowych jest wyczucie ludzkiej niepewności. W konsekwencji, gdy człowiek używa terminów pokroju “być może” czy “prawdopodobnie”, to narzędzie, z którym się komunikuje, otrzymuje niejasny przekaz. Mayank Kejriwal z University of Southern California i jego współpracownicy porównali sposób, w jaki modele AI i ludzie odwzorowują te słowa na procenty liczbowe. Dzięki temu zidentyfikowali podstawowe istotne różnice między ludźmi a dużymi modelami językowymi. 

O ile skrajne opcje, takie jak na przykład “niemożliwe” nie wzbudzają kontrowersji, tj. są prawidłowo odczytywane zarówno przez człowieka, jak i maszynę, tak inne przykłady stwarzają więcej problemów. Jednym z jaskrawych przypadków okazuje się słowo “prawdopodobne”. O ile dla człowieka taki termin oznacza średnio 65% prawdopodobieństwa, tak model językowy odbiera je na znacznie wyższym poziomie, bo około 80%.  

Czytaj też: Chiński pochód humanoidów. Czy Pekin wygra wyścig o „ucieleśnioną AI”?

Potencjalne wyjaśnienie? Według członków zespołu badawczego ludzie w większym stopniu podejmują decyzje na podstawie wskazówek kontekstowych i osobistych doświadczeń. Dla modeli językowych przedstawia się to nieco inaczej, ponieważ mogą one uśredniać sprzeczne użycia tych słów w swoich danych treningowych. W konsekwencji dochodzi do występowania rozbieżności. 

Komplikacje, które mogą utrudnić codzienne funkcjonowanie

Jakby komplikacji było mało, to autorzy natknęli się na kolejne. Zwracają uwagę na wrażliwość modeli na język z podziałem na płeć oraz na konkretny język używany w podpowiedziach. Mówiąc krótko, kiedy podpowiedź zmieniła się z „on” na „ona”, oszacowania prawdopodobieństwa przez sztuczną inteligencję często stawały się bardziej sztywne, odzwierciedlając uprzedzenia zakorzenione w danych treningowych. Gdy podpowiedź zmieniła się z angielskiego na chiński, oszacowania prawdopodobieństwa przez sztuczną inteligencję często ulegały przesunięciu. Najprawdopodobniej było to konsekwencją różnic między angielskim a chińskim w zakresie wyrażania i rozumienia niepewności. 

Czytaj też: Liczebność robotów i agentów AI rośnie. Nadchodzi era nie-ludzkich pracowników?

Wyciągnięte wnioski powinny mieć przełożenie na realne zastosowania w codziennym życiu. Mówimy przecież o modelach, które odgrywają coraz istotniejszą rolę. Duże modele językowe są nie tylko ciekawostką. Wręcz przeciwnie, stosuje się je w dziedzinach takich jak opieka zdrowotna, polityka rządowa czy badania naukowe. W związku z tym sposób, w jaki owe narzędzia komunikują ryzyko, staje się bardzo poważnym problemem. Wyobraźmy sobie sytuację, w której model ocenia zagrożenie w skali zupełnie innej niż człowiek, co prowadzi do błędnej interpretacji danych. Autorzy apelują więc o odpowiednią kalibrację narzędzi językowych. 

Źródło: npj Complexity, The Conversation