Czytanie z ruchu warg to trudna umiejętność, która wymaga biegłej znajomości wizualnej strony języka (zwłaszcza układu warg w czasie wymawiania konkretnych głosek). Sztukę czytania ułatwia znajomość kontekstu i sposobu mówienia danej osoby. Jak naukowcom udało się „nauczyć” maszyny rozróżniania słów bez dźwięku?

 

Sztuczna inteligencja uczy się czytać (z ust)

System sztucznej inteligencji LipNet - opracowany przez zespół specjalistów z Wydziału Informatyki na University of Oxford - działa jak sieć neuronalna.  „Mózgiem” tego systemu jest zbiór danych (GRID), na który składają się 3-sekundowe klipy, przedstawiające ludzi czytających różne sekwencje słów (twarze są dobrze oświetlone, skierowane wprost do kamery, wymowa poprawna).

Jak system przekłada swoją „wiedzę” na praktykę? Przecież ilu ludzi - tyle kształtów ust, inna ekspresja, do tego wady wymowy i różnego rodzaju zakłócenia... Zespół naukowców wykorzystał zbiór danych do trenowania sztucznej inteligencji, tak by identyfikowała zmienność kształtów jamy ustnej i łączyła zaobserwowane zmiany ze znaczeniem. AI analizuje cały materiał (nie urywki), by uchwycić kontekst. To ważne, ponieważ układów warg jest mniej niż dźwięków mowy (tj. jeden układ warg może reprezentować kilka dźwięków, ale system dopasowuje swoje „niewiadome” do kontekstu).

W fazie testów system był w stanie zidentyfikować 93,4 proc. słów. Gdy o wykonanie tego zadania poproszono ludzi, okazało się że byli w stanie rozpoznać średnio tylko 52,3 proc. słów!

Inny zespół z Wydziału Inżynierii na Univeristy of Oxford we współpracy z  Google DeepMind, podjął się jeszcze trudniejszego zadania. Zamiast „sztywnego” zbioru danych - takiego jak GRID - jako bazę wykorzystywał 100 000 klipów wideo pochodzących z telewizji BBC. Taki zbiór jest dużo bardziej różnorodny, uwzględnia mowę w sytuacjach naturalnych a nie laboratoryjnych, bierze pod uwagę zmienność oświetlenia i pozycji głowy.

Na etapie testów okazało się, że system opracowany przez zespół z Oxfordu i Google DeepMind potrafił rozpoznać 46,8 proc. słów (wykorzystano gorzej oświetlone nagrania, sytuacje, w który twarz nie znajduje się w centrum). Dla porównania - ludzie zidentyfikowali zaledwie 12,4 proc. słów.