Tłumacz statystyczny

Komputery przekładają już zdania z jednego języka na drugi na żywo, np. podczas rozmowy telefonicznej. I wychodzi im to nieźle, przynajmniej statystycznie.

Kiedyś podczas wakacji  na Teneryfie postanowiłem nawiązać w kawiarni rozmowę z nieznajomą. Ponieważ od dzieciństwa uczyłem się angielskiego, pomyślałem, że nie będę miał z tym kłopotu. Niestety lata nauki nie przydały się na nic. Nowo poznana koleżanka mówiła tylko po hiszpańsku, a  moje umiejętności posługiwania się tym językiem nie wykraczały poza zrozumienie, co oznacza „hasta la vista” i „manana”. Udało mi się tylko dowiedzieć, że moja rozmówczyni jest z Kolumbii, że pracuje w sklepie i że następnego dnia wybiera się motocyklem na wycieczkę. Wydobycie tych trzech informacji trwało około godziny i było niezwykle wyczerpujące.

Co w tej sytuacji możemy zrobić?  Kapitan Kirk miał do dyspozycji urządzenie zwane uniwersalnym tłumaczem, Luke Skywalker – chodzącego za nim androida C-3PO, znającego ponad 6 milionów różnych form komunikacji, a  Galaktyczni Autostopowicze nosili w  uchu Rybę Babel, która potrafiła przetłumaczyć dowolny język. My, mieszkańcy Ziemi z początku XXI wieku, mamy komputery, smartfony i zdolnych programistów. 

Ich pomysły mogą stanowić całkiem niezłą pomoc w tych częściach świata, w których mówi się bardziej popularnymi językami. Wystarczy inteligentny telefon i odpowiednia aplikacja. Dostępne od niedawna programy rozpoznają ludzką mowę i tłumaczą proste zdania. Na przykład Google Translate potrafi tłumaczyć tekst w 53 językach i mowę w 18, w tym polskim. W tak zwanym Conversation Mode wystarczy, że wypowiemy zdanie do mikrofonu w telefonie i wciśniemy odpowiedni przycisk, aby zobaczyć i usłyszeć tłumaczenie. Druga osoba może nam w ten sam sposób odpowiedzieć, mówiąc we własnym języku.

Działa w 80 procentach

Systemy te nie są doskonałe. Nie wypadają też jednak źle. Kiedy sprawdziłem działanie Google Translate w  praktyce, zostałem pozytywnie zaskoczony. Biorąc pod uwagę świeżość technologii, program świetnie radził sobie z rozumieniem mowy w polskim języku i tłumaczeniem jej na angielski. Na dziesięć zdań średnio osiem było przetłumaczonych poprawnie, jedno dało się zrozumieć i jedno było niezrozumiałe. W podróży możemy więc liczyć na znaczną pomoc. „Zazwyczaj  uruchamiamy system, który nie jest perfekcyjny, ale z którego można korzystać. Później zbieramy dane od użytkowników i go udoskonalamy” – mówi „Focusowi” dr Pedro Moreno, specjalista zajmujący się w Google rozpoznawaniem mowy. Pamiętajmy, że ze względu na bogactwo form poszczególnych wyrazów polski język nie jest dla komputerów lekkostrawny. Oprócz darmowego produktu Google, na rynku dostępne są także inne aplikacje tego typu. Można więc wybierać.

Dialog z osobą, z którą jesteśmy w bezpośrednim kontakcie, to dopiero początek. Niedługo będziemy mogli rozmawiać przez telefon, nie martwiąc się o to, czy osoba po drugiej stronie zna nasz język. 

Japoński operator komórkowy DoCoMo niedawno zaprezentował technologię umożliwiającą tłumaczenie rozmów przez telefon. System słucha wypowiadanych zdań, zamienia na tekst, tłumaczy, wyświetla przetłumaczone linijki w telefonie odbiorcy i na głos je odczytuje. Według japońskiej firmy jakość nowej usługi jest wystarczająca, aby porozumieć się w  większości codziennych sytuacji.

„Mercedes pomóc Nissan”

Podobne ułatwienia czekają na internautów. W sieci króluje angielski, ale niestety nie wszyscy się nim posługują. Coraz więcej stron powstaje też w innych językach, np. w chińskim. Te bariery zaczynają przełamywać takie programy jak właśnie Google Translate, Yahoo Babel Fish i Bing Translator Microsoftu. Na razie możemy liczyć raczej na zrozumienie niż na swobodne czytanie. Odwiedzając np. przetłumaczoną angielskojęzyczną stronę informacyjną, zobaczymy takie zdania, jak „Brazylii rozpoczyna się Puchar Świata odliczanie” albo „Mercedes pomóc Nissan zrobić luksusowych samochodów”. Tłumaczenie na angielski wypada nieco lepiej, choć w tym przypadku pojawiają się kłopoty np. z nazwiskami. Mimo tych niedoskonałości dla rzeszy osób, które posługują się tylko jednym językiem, tłumaczące programy mogą stać się oknem do internetowego świata. Jeszcze kilka lat temu osoba nieznająca angielskiego była w sieci odcięta od większości witryn.

 

„Jeszcze dziesięć lat temu nikomu nie wydawało się możliwe uzyskanie komputerowego rozpoznawania mowy i tłumaczenia na poziomie, którym dzisiaj dysponujemy”  – mówi Pedro Moreno. Sukces zawdzięczamy między innymi nowym sposobom podejścia do problemu uczenia się komputerów. W stosowanej najczęściej technologii programy uczą się, porównując olbrzymie zbiory dokumentów dostępnych w różnych językach. „W  ostatnich latach zmieniły się sposoby pracy ze sztuczną inteligencją i uczącymi się programami. Zamiast implementacji reguł, stosujemy systemy oparte na statystyce, w których niekoniecznie próbujemy zrozumieć, jak ludzie rozpoznają mowę albo jak ludzki mózg dokonuje tłumaczenia. Nowego podejścia używa się w wielu obszarach, m.in. w rozpoznawaniu mowy, tłumaczeniach, w finansach” – opowiada dr Moreno. Tylko czy kieszonkowy smartfon poradzi sobie z obsługą tak obszernej ilości informacji? Z pomocą przychodzi chmura, czyli tzw. cloud computing. W tej technologii główny ciężar obliczeń spada na zdalne serwery, z którymi telefon łączy się za pomocą internetu. Tak działa m.in. mobilna wersja  Google Translate. Plusem takiego rozwiązania jest dostęp do potężnej mocy i większe możliwości programu, minusami – niewielkie   opóźnienie i koszty połączenia. Może się też zdarzyć tak, że znajdziemy się w miejscu zupełnie odciętym od sieci. Istnieją już programy, które radzą sobie bez wsparcia dużych serwerów, mają jednak pewne ograniczenia. Jedną z  takich aplikacji jest Jibbigo Voice Translator, dostępny dla urządzeń przenośnych Apple i telefonów z systemem Android. Ze względu na ograniczone zasoby, baza programu koncentruje się na zwrotach dotyczących podróżowania i opieki medycznej. Niedawno powstała specjalna wersja tej aplikacji dla żołnierzy stacjonujących w Iraku. Optymalnym rozwiązaniem okażą się prawdopodobnie systemy łączone, korzystające z  zasobów serwerów, zależnie od potrzeb i możliwości. „Myślę, że w przyszłości pojawią się hybrydowe rozwiązania. Telefony mają coraz większą moc obliczeniową, więc bez połączenia z internetem będą mogły zaoferować pracę w ograniczonym zakresie. Jeśli znajdziemy się w  zasięgu połączenia internetowego, wtedy skorzystamy z chmury, która jest bardziej niezawodna i dokładna” – uważa dr Moreno.

Delfiny i niemowlęta mają głos

Przyszłość może okazać się bardziej zaskakująca. Zespół badaczy z Muroran Institute of Technology prowadzi poważne badania nad rozpoznawaniem znaczenia płaczu niemowląt. Stosując statystyczną analizę, uczeni próbują ustalić wzorce płaczu, odzwierciedlające różne emocje maluchów. Ponieważ nawet doświadczenie matek może nie stanowić wystarczająco wiarygodnego źródła informacji, japońscy naukowcy obserwują zachowanie niemowląt podzielonych na specyficzne grupy. W jednej z nich znalazły się na przykład dzieci z chorobą genetyczną wywołującą częste dolegliwości bólowe. Badacze twierdzą, że udaje im się już precyzyjnie rozróżniać, czy niemowlak płacze z bólu, czy z innego powodu. 

Równie ambitny plan nakreślili amerykańscy uczeni, którzy zamierzają rozmawiać z delfinami. Według pewnych badań butlonosy potrafią nauczyć się 100 słów i  rozumieć znaczenie ułożonych z nich zwrotów. Naukowcy z Wild Dolphin Project na Florydzie od 1998 roku uczą się porozumiewać z tymi inteligentnymi ssakami za pomocą znaków. Mimo pewnych sukcesów, taka technika komunikacji okazała się mało efektywna i  niezbyt przyjazna dla delfinów. W projekcie Cetacean  Hearing and Telemetry (CHAT), przy współpracy ze specjalistami od sztucznej inteligencji z  Georgia Institute of Technology w Atlancie, ma powstać urządzenie, które pozwoli na swobodną „rozmowę” ze zwierzętami. Najpierw za pomocą specjalnie opracowanych komputerowych algorytmów uczeni wyszukują wzorce w dźwiękach wydawanych przez delfiny i grupują je. Następnie obserwacja zwierząt ma pozwolić na powiązanie tych komunikatów z ich zachowaniem. Jeśli to się uda, w następnym kroku powstanie podobny do telefonu, wodoszczelny, wieszany na szyi gadżet, który będzie odbierał i rozszyfrowywał mowę delfinów. Za pomocą trzymanego w dłoni interfejsu nurek będzie mógł im odpowiadać.

Nie zdziwmy się więc, jeśli za kilka lat będziemy mogli pobrać aplikację na telefon, która pozwoli nam nie tylko swobodnie porozmawiać ze znajomym z Japonii, ale też usłyszeć, co ma do powiedzenia nasz pies. 

Przydają się witryny UE

O tym, jak komputery uczą się rozpoznawać i tłumaczyć mowę, opowiada DR PEDRO MORENO, naukowiec z Google

Systemy rozpoznawania mowy składają się z trzech głównym komponentów. Pierwszy rozkłada słowa na fonemy. Drugi element to model językowy. Trzeci komponent to model akustyczny, który łączy fonemy z rzeczywistymi dźwiękami.

Pierwszy element jest łatwy do opracowania dla regularnych języków takich jak np. włoski. W przypadku języków nieregularnych (jak angielski) korzystamy z różnych źródeł, poszukujemy reguł wymowy w sieci lub zatrudniamy ludzi. Następnie trenujemy system sztucznej inteligencji, który na podstawie ograniczonej próby np. 100 tys. słów uogólnia poznane zasady dla całego słownika.

Tworzenie modelu językowego polega na przeszukiwaniu dokumentów tekstowych i sprawdzaniu, z jaką częstotliwością występują różne sekwencje wyrazów. Służą do tego bardzo proste modele statystyczne.

Moduł akustyczny wymaga stworzenia bazy danych z pomocą ludzi, którzy czytają poszczególne wyrazy. Następnie systemy sztucznej inteligencji rozbijają je na komponenty fonetyczne i tworzą statystyczny model każdego z fonemów. Jeżeli chcemy dokonać tłumaczenia, zamieniona na tekst mowa jest przekazywana do systemu, który składa się z dwóch głównych modułów. Pierwszy z nich to element tłumaczący. Tworzy się go, porównując dokumenty o tej samej zawartości, ale dostępne w różnych językach. W internecie działa wiele stron tego rodzaju, np. witryny Unii Europejskiej, Organizacji Narodów Zjednoczonych czy komercyjne strony opisujące różne produkty.

Następny element to model językowy, podobny do tego, jaki stosowany jest przy rozpoznawaniu mowy. Dzięki niemu wiadomo, jakie sekwencje słów są bardziej prawdopodobne od innych. Tworzy się go również z użyciem statystyki, przeszukując dokumenty w sieci. Im większe są modele językowe, tym bardziej precyzyjne są tłumaczenia.