Sztuczna inteligencja pomoże pokonać kolejne bariery. Osoby nieme dostaną swoich asystentów głosowych

Naukowcy wykorzystają sztuczną inteligencję do stworzenia asystentów głosowych dla osób niesłyszących i niedosłyszących

Ułatwienia dostępu i znoszenie barier między ludźmi są bardzo ważne, zwłaszcza w kontekście osób z różnymi niepełnosprawnościami. W obecnych czasach mamy ku temu masę możliwości, zwłaszcza jeśli chodzi o sztuczną inteligencję, której potencjał dopiero badamy. Jednak już teraz można śmiało stwierdzić, że technologia ta w dobrych rękach może zmienić świat na lepsze. Świetnym przykładem jest narzędzie opracowane przez naukowców z Centro Nacional de Supercomputación (BSC-CNS) i Universitat Politècnica de Catalunya (UPC).

Dostrzegli oni, że pomimo rozwoju, asystenci głosowi pokroju Alexy czy Siri, które są przecież coraz częściej dostępne w domach, nadal nie uwzględniają języka migowego. To z kolei tworzy barierę w dostępie do usług cyfrowych i interakcji z technologią. Osoby nieme, niesłyszące lub niedosłyszące muszę ograniczać się do specjalnych aplikacji obsługujących język migowy.

Nie powinno to jednak dziwić, bo choć technologia rozpoznawania języka migowego jest intensywnie rozwijana od lat, to stawia przed badaczami wiele wyzwań, takich jak śledzenie ruchów palców na ograniczonej przestrzeni, wykrywanie kierunku ruchu, radzenie sobie z unikalnym porządkiem gramatycznym i wiele, wiele innych.

Narzędzie opracowywane przez naukowców z BSC i UPC ma na celu zniesienie tych barier przy wykorzystaniu uczenia maszynowego o nazwie Transformers, do konwersji całych zdań języka migowego w formacie wideo na język mówiony w formacie tekstowym. Obecnie skoncentrowany jest na amerykańskim języku migowym, ale wedle informacji, można go dostosować do dowolnego języka. Oczywiście o ile dostępne są wszystkie niezbędne dane, czyli zbiór rannych równoległych, w którym każde zdanie w języku migowym (w formacie wideo) tłumaczenie na język mówiony (w formacie tekstowym).

Opracowane nowe narzędzie jest rozszerzeniem poprzedniego projektu, również BSC i UPC, o nazwie How2Sign, w której dane potrzebne do szkolenia modeli (ponad 80 godzin filmów, w których tłumacze amerykańskiego języka migowego tłumaczą samouczki wideo, takie jak przepisy kulinarne lub majsterkowanie sztuczki) zostały opublikowane. Dysponując już tymi danymi, zespół opracował nowe oprogramowanie typu open source, zdolne do uczenia się mapowania między wideo a tekstem — mówi Laia Tarrés, badaczka z BSC i UPC.

Jest to pierwszy tak zaawansowany system, który jest w stanie tłumaczyć język migowy w sposób ciągły i dokładny, a co istotne, nie wymaga noszenia specjalnych rękawiczek czy nakładania na dłonie markerów. SignAll ma dokładność na poziomie 95-procent, co (prócz możliwości obsługi innych języków migowych) wyróżnia go na tle innych tego typu rozwiązań.

Choć już teraz brzmi to imponująco, badacze podkreślają, że mają jeszcze dużo do zrobienia. Jest to jednak krok w dobrą stronę. SignAll z czasem będzie udoskonalany, aż będzie możliwe stworzenie realnej aplikacji, która znacznie podniesie komfort osób posługujących się językiem migowym. Chodzi tu nie tylko o kontakty z bliskimi, ale przede wszystkim o codzienne życie, bo będzie można wykorzystywać ją podczas zakupów, zamawiania posiłków, a także podczas wizyty u lekarza czy w sytuacjach kryzysowych. Niestety, to jeszcze bardzo odległa wizja.

PS – po więcej materiałów najwyższej jakości zapraszamy na Focus Technologie. Subskrybuj nasz nowy kanał na YouTubie!

Naukowcy wykorzystają sztuczną inteligencję do stworzenia asystentów głosowych dla osób niesłyszących i niedosłyszących

Opracowane nowe narzędzie jest rozszerzeniem poprzedniego projektu, również BSC i UPC, o nazwie How2Sign, w której dane potrzebne do szkolenia modeli (ponad 80 godzin filmów, w których tłumacze amerykańskiego języka migowego tłumaczą samouczki wideo, takie jak przepisy kulinarne lub majsterkowanie sztuczki) zostały opublikowane. Dysponując już tymi danymi, zespół opracował nowe oprogramowanie typu open source, zdolne do uczenia się mapowania między wideo a tekstem — mówi Laia Tarrés, badaczka z BSC i UPC.

PS – po więcej materiałów najwyższej jakości zapraszamy na Focus Technologie. Subskrybuj nasz nowy kanał na YouTubie!