Informacyjny potop

W 2008 roku ludzkość wyprodukuje więcej danych niż przez ostatnich 40 tys. lat. Trudno uwierzyć? Więc przyjrzyjmy się naszemu życiu codziennemu. Często rozsiewamy dane mimowolnie: każde połączenie telefoniczne, SMS, a nawet każdy rachunek zapłacony w sklepie są gdzieś zapisywane. A to dopiero początek. Robimy cyfrowe zdjęcia, kręcimy cyfrowe filmy – każdy z nich to kolejne mega i gigabajty danych. Zwykły domowy komputer wyposażony jest w dysk o pojemności 250 GB (czyli ćwierć terabajta). To wystarczyłoby do przechowania wydań „Focusa” z 30 lat (ze wszystkimi tekstami i zdjęciami w wersji gotowej do druku w drukarni)!

Jednak wszystkie nasze odtwarzacze MP3, komórki z aparatami, kamery cyfrowe i tysiące innych gadżetów wymagających obróbki danych – to drobiazg w porównaniu z tym, co produkują naukowcy. Każdy ludzki genom po odczytaniu zajmuje ok. 3 GB, a uczeni chcą zsekwencjonować ich (na początek) tysiące, by zrozumieć, do czego służą poszczególne geny. Chiński satelita Chang’e-1, który w tym roku bada powierzchnię Księżyca, prześle na Ziemię łącznie 28 terabajtów danych. A to dopiero wierzchołek góry, która rośnie w błyskawicznym tempie – co roku podwajamy ilość informacji, którą do tej pory wytworzyła nasza cywilizacja.

WIELKI TATA PATRZY…

Na Massachusetts Institute of Technology trwa projekt badawczy nazwany Human Speechome (przez analogię do ludzkiego genomu – „human genome”). Cel jest ambitny – naukowcy chcą rozpoznać mechanizmy, które pozwalają dziecku opanować sztukę mówienia. Dlatego prof. Deb Roy, szef Cognitive Machines Group z ośrodka MIT Media Lab, zainstalował w swoim domu szereg kamer i mikrofonów, które bez przerwy śledzą zachowanie jego syna – od dnia narodzin. W piwnicy domu zainstalowano macierz dyskową o pojemności pięciu terabajtów, gdzie filmy są przechowywane. Pojemność taka starcza ledwie na dwa tygodnie nagrań, więc dane są sukcesywnie przenoszone na serwer uczelniany.

Na koniec eksperymentu 400 tysięcy godzin nagrań dźwięku i obrazu, zebrane z trzech lat ciągłego podglądania dziecka, zostanie poddane analizie komputerowej, by wyłuskać te szczególne momenty sprawiające, że mały człowiek uczy się porozumiewać z dorosłym.

„To jak wsadzenie pod mikroskop zmian, jakie z dnia na dzień i z godziny na godzinę zachodzą w czasie uczenia się języka” – mówi prof. Steven Pinker, psycholingwista z Harvard University.

Uporządkowanie takiego natłoku informacji to zadanie iście herkulesowe – komputery będą musiały przekopać się przez 320 terabajtów danych. Gdy przeliczymy to na numery „Focusa”, wyjdzie z tego przeszło 460 tys. wydań, czyli 38 tys. roczników. Albo inaczej licząc – stos kolejnych numerów wysoki na prawie dwa kilometry. Nie ma się co dziwić, że dziedzina wiedzy, związana z przerobieniem tak wielkiej ilości informacji, po angielsku nazywa się „data mining”, czyli dosłownie „górnictwo danych”. Po polsku mówimy na to ekstrakcja lub eksploracja danych, co już nie oddaje ogromu wyzwania.

To właśnie eksploracja danych jest jedną z najważniejszych dziedzin wiedzy, które ostatnimi czasy wkraczają do komputerów domowych. 250 GB twardego dysku to też niemało – odnalezienie konkretnej informacji, na przykład e-maila sprzed dwóch lat, o którym pamiętamy tylko, że zawierał kilka konkretnych słów, wcale nie jest proste. Sztukę tę opanowała do perfekcji firma Google, która zbiła fortunę na wyszukiwaniu informacji w gigantycznej bazie danych, jaką jest Internet, a teraz udostępnia narzędzia do błyskawicznego przeszukiwania danych we własnym komputerze – także naukowcom.

WYŁUSKAĆ BOSKĄ CZĄSTKĘ

Najbardziej spektakularnym zadaniem związanym z eksploracją danych będzie obróbka wyników ekperymentów prowadzonych w ośrodku CERN pod Genewą (notabene w tym właśnie miejscu narodził się standard HTML i strony WWW). Pod ziemią wybudowano tam tzw. LHC (Large Hadron Collider) – wielki kolisty korytarz, w którym zderzać się będą rozpędzone cząstki elementarne. Po każdym takim zderzeniu powstanie mnóstwo „odłamków”, które będą śledzone przez potężny zestaw detektorów. Dostarczona przez nie ilość informacji będzie niewyobrażalna – w ciągu 120 dni pracy w tym roku powstanie 15 petabajtów danych (czyli 21 milionów wydań „Focusa” – 1, 7 mln roczników.

Naukowcy z CERN spodziewają się znaleźć odpowiedzi na kluczowe pytania o budowę Wszechświata – ile ma on wymiarów, czy istnieje tzw. Boska Cząstka, czyli bozon Higgsa, nadający masę wszelkiej materii… Ale najpierw będą musieli obrobić tę niesłychaną górę danych. W tym celu powstała specjalna sieć obliczeniowa – tzw. grid – łącząca superkomputery w wielu ośrodkach naukowych na świecie. Dziś inicjatywa zwana EGEE (Enabling Grids for E-sciencE) jest największą tego typu strukturą na świecie. Obecnie obejmuje 41 tys. mikroprocesorów i niewyobrażalną przestrzeń dyskową na dane, w której 15 petabajtów zarezerwowanych na potrzeby CERN jest tylko cząstką całej infrastruktury. Warto wiedzieć, że dwa centra obliczeniowe włączone w sieć znajdują się w Polsce (krakowski CYFRONET i warszawski ICM, do którego jeszcze wrócimy).

Kiedy CERN nie produkuje danych, grid może być wykorzystywany np. do obrabiania obrazów, z którymi pojedynczy komputer nie może sobie poradzić. W Niemczech powstał projekt tomografu ultrasonograficznego. 20 GB danych zebranych z czujników ultradźwiękowych w czasie badania piersi jest wysyłanych do gridu, który po ok. 30 minutach zwraca wynik w postaci trójwymiarowego przekroju podobnego do tego, co widać w tomografie rentgenowskim. Ale w przeciwieństwie do badania promieniami Roentgena – ultrasonograf jest nieszkodliwy, więc można badania prowadzić częściej. Dzięki gridowi można obecnie wykrywać guzy o średnicy jednej czwartej milimetra – to naprawdę doskonała czułość.

CYFROWA POGODA

Nie zawsze jednak komputery grzebią w informacji wytworzonej przez człowieka. Istnieje cała klasa zadań naukowych, które generują ogromne ilości danych – w sporej części pozornie nikomu niepotrzebnych. Dobrym przykładem jest prognoza pogody.

Tą dziedziną zajmuje się m.in. Interdyscyplinarne Centrum Modelowania Matematycznego (ICM) w Warszawie. Cztery razy dziennie superkomputer ICM oblicza prognozę pogody dla Polski na następne 72 godziny. Model zakłada podział naszego kraju na kwadraty o boku 16 km. Każdy z takich kwadratów to podstawa prostopadłościanu, dla którego obliczany jest stan atmosfery, czyli właśnie pogoda. Część informacji może wydawać się nieistotna – bo po co komu informacja o pogodzie w szczerym polu w pół drogi między Radomiem i Warszawą?

Ale bez tych danych nie można się obyć, bowiem służą one do generowania kolejnych kroków prognozy. Gdyby superkomputer pomijał w kalkulacjach wspomniane mazowieckie pustkowie, jego prognozy dla stolicy szybko mogłyby okazać się nieprecyzyjne. Ilość danych pochodzących z każdego kroku obliczeń superkomputera w ICM nie jest oszałamiająca – marne kilkadziesiąt megabajtów – ale i tak żaden człowiek nie byłby w stanie wywnioskować z tego, jaka będzie pogoda. Tak zresztą jest z wynikami praktycznie wszystkich symulacji – to niekończące się ciągi niezrozumiałych liczb. By w ogóle zrozumieć, co komputer obliczył, potrzebny jest… kolejny komputer, który pomoże zaprezentować dane w „lekkostrawny” sposób, czyli dokona ich wizualizacji. Gdy wejdziemy na stronę meteo.icm.edu.pl i klikniemy w wybrany region, serwer sięga do danych przygotowanych przez superkomputer i na tej podstawie generuje odpowiedź (np. jutro znowu będzie lało…), zaprezentowaną w formie kilku zgrabnych wykresów.

W MÓZGU SZCZURA

W przypadku prognozy pogody możemy w miarę łatwo sprawdzić, czy maszyna się nie myli – wystarczy chwilę poczekać i popatrzeć za okno. Ale są też zadania obliczeniowe, w których przypadku musimy zaufać komputerom bez reszty. Nie jesteśmy w stanie sprawdzić eksperymentalnie, czy obliczone dane są prawidłowe. Przykładem jest projekt Blue Brain, realizowany w szwajcarskiej Ecole Polytechnique Fédérale de Lausanne.

Na pierwszy rzut oka wydaje się on mało imponujący – uczeni zaprzęgli superkomputer Blue Gene, zbudowany przez IBM z 8 tys. mikroprocesorów, do zasymulowania kilku sekund pracy małego wycinka mózgu dwutygodniowego szczura. Byłoby to łatwe, gdyby uczeni traktowali poszczególne komórki nerwowe jako proste „przełączniki” – tyle, że taki model nijak się ma do rzeczywistości. Dlatego Blue Brain symuluje pracę mózgu na poziomie molekularnym. Każdy wirtualny neuron działa jak żywa komórka: na jego pracę ma wpływ to, ile dostaje pożywienia, jak bardzo się rozrasta, jakie ma otoczenie. Taki model pozwoli uczonym zrozumieć procesy leżące u podstaw normalnej pracy układu nerwowego i powstawania zaburzeń takich jak depresja. Co więcej – wirtualny mózg pomoże również zaprojektować jak najbardziej realne lekarstwa.

Pierwszy etap prac projektu Blue Brain, rozpoczęty w 2002 r., zakończył się sukcesem. Badaczom udało się odwzorować pracę 10 tys. neuronów i potwierdzić, że we wszystkich sytuacjach, jakie udało się zasymulować w laboratorium na szczurzych tkankach, ich cyfrowe odpowiedniki zachowują się jak żywe.

Teraz trwają prace nad optymalizacją modelu, bowiem obliczenia superkomputera są nadal sto razy wolniejsze od tempa pracy żywych struktur (innymi słowy – symulacja sekundy pracy szczurzych neuronów trwa 100 sekund). Kierujący projektem prof. Henry Markram nie kryje, że jego celem jest zbudowanie cyfrowej repliki ludzkiego mózgu, co powinno mu zająć jakieś dwa lata.

UWIERZYĆ MASZYNIE?

Być może jego optymizm jest jednak przesadny. Dziś nawet największy grid łączący wszystkie superkomputery świata nie byłby w stanie poradzić sobie z tym wyzwaniem. Nasz mózg to 100 miliardów neuronów połączonych niewyobrażalną ilością synaps – około 10 tys. na każdy neuron – w sumie jakiś biliard połączeń. Nawet gdyby założyć, że każdą z synaps opisujemy z pomocą jednego bajta, daje to w sumie petabajt danych – ułamek tego, co rocznie produkować będzie CERN. A przy tym mózg zużywa zaledwie 25 watów energii, podczas gdy superkomputery są w stanie doprowadzić swych właścicieli do ruiny samymi rachunkami za elektryczność. Prof. Markram szacuje, że gdyby miał stworzyć model całego mózgu z użyciem dzisiejszej technologii, maszyny zajęłyby kilka boisk piłkarskich, a za zużyty przez nie w ciągu roku pracy prąd trzeba by zapłacić trzy miliardy dolarów!

To budujące, że mimo tych niesamowitych mocy przetwarzania danych, jakimi dysponują dziś komputery, nie są one w stanie ogarnąć naszego umysłu. Z drugiej jednak strony – nasz umysł nie jest w stanie przeanalizować petabajtów danych produkowanych przez komputery. Wygląda na to, że obie strony znalazły się w klinczu… Ale to się wkrótce zmieni. Postęp nauki, a więc i całej cywilizacji, w coraz większym stopniu zależy od maszyn, które co prawda działają według naszych instrukcji, ale coraz częściej musimy im uwierzyć „na słowo”, gdy z góry danych wyciągają jakąś informację i podtykają nam ją pod nos. A gdy uczonym uda się zasymulować działanie całego mózgu, Matrix stanie się faktem – miejmy tylko nadzieję, że wyjdziemy na tym lepiej niż bohaterowie filmu.