Opisany w naukowym czasopiśmie arXiv to kolejne podejście firmy nVidia do łączenia sieci neuronowych z technologiami tworzenia i obróbki grafiki. Jakiś czas temu ta sama firma pochwaliła się udanym projektem, który tworzył ze zgromadzonych w sobie danych nowe zdjęcia ludzkich twarzy. Efekt był bardzo dobry – większość zdjęć wygląda, jakby była po zrobiona prawdziwym osobom. Jednak w przypadku kotów sprawa okazała się zbyt trudna: dziwne rysy pyszczków, nieodpowiednia liczba kończyn, niepokojące kształty, a czasem po prostu nierozpoznawalna wizualna zupa – to częste problemy, które zaobserwowali twórcy sieci.
SyleGAN, bo tak nazywa się sieć, działa na zasadzie dwóch współgrających ze sobą modeli informatycznych: pierwszy tworzy obraz, drugi porównuje je z innymi zawartymi w treningowej bazie danych. Dzięki temu program sam może dostrzec swoje błędy, uczyć się i poprawiać swoje działanie.
W przypadku ludzi sieć nauczyła się rozkładać twarz człowieka na konkretne elementy i rozróżniać ich cechy: kształt oczu, nosa, ich miejsce na twarzy, kolor skóry, płeć i tak dalej. Bez nadzoru programistów doskonale poradziła sobie z zadaniem i po pewnym czasie tworzyła fikcyjne zdjęcia nieistniejących ludzi, które mogłyby nabrać każdego. Dlaczego zatem ta sztuka nie udała się z kotami?
Według Janelle Shane, badającej sztuczne inteligencje (nie pracowała przy sieci nVidii), problemem może być materiał źródłowy. W sieci funkcjonują miliardy zdjęć, z których można zbudować bazę danych, jednak większość z nich jest daleka od ideału. Na swoim blogu AI Weirdness napisała, że źródłowy zestaw zdjęć ludzkich twarzy StyleGan’a miał wyraźne twarze, jasno oddzielone od tła, portrety o podobnym ustawieniu głowy. W przypadku kotów były to dosłownie wszystkie rodzaje zdjęć, różne pozy, różne tła, różny stopień ostrości i wpasowania bohatera w otoczenie. Nierzadko w bazie pojawiały się zdjęcia kotów z ludźmi, co mogło dodatkowo skonfundować SI.
– Są tam koty do góry nogami, zwinięte w kłębek, z oczami zamkniętymi i otwartymi – taki zestaw danych ma dużo szumów, to znaczy są tam zdjęcia, które nie są jedynie zdjęciami kotów – tłumaczy badaczka i doradza, by nie stawiać już krzyżyka na możliwościach StyleGAN’a.
– Sieć neuronowa nie wie jak działa kot. Nie rozumie ile ma nóg, nie jest dla niej jasne ile powinien mieć oczu, jak działa jego anatomia – dodaje.
Koty to nie jedyny gatunek, nad którym pracują sztuczne inteligencje nVidii. Firma testuje podobne sieci na zdjęciach psów, lwów i tygrysów.
Nie jest to pierwsza próba zmierzenia się komputerowego mózgu z tajemniczymi futrzakami. W 2017 Alexia Jolicoeur – Martineau stworzyła „Meow generator”, który wygenerował na podstawie 10 tysięcy zdjęć kolejne 9304 fikcyjnych kotów.
Zobacz galerię dziwacznych kotów wygenerowanych przez SI.
Źródło: Live Science / nVidia / ajolicoeur.wordpress.com