Informacyjny potop

Nasza cywilizacja produkuje lawinowo rosnącą ilość danych. Jest ich już tak wiele, że potrzebujemy komputerów nie tylko do wygenerowania czy zapisania tej informacji – stały się niezbędne do jej analizowania i zrozumienia. Maszyny wyciągają wnioski z badań prowadzonych przez inne maszyny... Czy to już Matrix?

W 2008 roku ludzkość wyprodukuje więcej danych niż przez ostatnich 40 tys. lat. Trudno uwierzyć? Więc przyjrzyjmy się naszemu życiu codziennemu. Często rozsiewamy dane mimowolnie: każde połączenie telefoniczne, SMS, a nawet każdy rachunek zapłacony w sklepie są gdzieś zapisywane. A to dopiero początek. Robimy cyfrowe zdjęcia, kręcimy cyfrowe filmy – każdy z nich to kolejne mega i gigabajty danych. Zwykły domowy komputer wyposażony jest w dysk o pojemności 250 GB (czyli ćwierć terabajta). To wystarczyłoby do przechowania wydań „Focusa” z 30 lat (ze wszystkimi tekstami i zdjęciami w wersji gotowej do druku w drukarni)!

Jednak wszystkie nasze odtwarzacze MP3, komórki z aparatami, kamery cyfrowe i tysiące innych gadżetów wymagających obróbki danych – to drobiazg w porównaniu z tym, co produkują naukowcy. Każdy ludzki genom po odczytaniu zajmuje ok. 3 GB, a uczeni chcą zsekwencjonować ich (na początek) tysiące, by zrozumieć, do czego służą poszczególne geny. Chiński satelita Chang’e-1, który w tym roku bada powierzchnię Księżyca, prześle na Ziemię łącznie 28 terabajtów danych. A to dopiero wierzchołek góry, która rośnie w błyskawicznym tempie – co roku podwajamy ilość informacji, którą do tej pory wytworzyła nasza cywilizacja.

WIELKI TATA PATRZY...


Na Massachusetts Institute of Technology trwa projekt badawczy nazwany Human Speechome (przez analogię do ludzkiego genomu – „human genome”). Cel jest ambitny – naukowcy chcą rozpoznać mechanizmy, które pozwalają dziecku opanować sztukę mówienia. Dlatego prof. Deb Roy, szef Cognitive Machines Group z ośrodka MIT Media Lab, zainstalował w swoim domu szereg kamer i mikrofonów, które bez przerwy śledzą zachowanie jego syna – od dnia narodzin. W piwnicy domu zainstalowano macierz dyskową o pojemności pięciu terabajtów, gdzie filmy są przechowywane. Pojemność taka starcza ledwie na dwa tygodnie nagrań, więc dane są sukcesywnie przenoszone na serwer uczelniany.

Na koniec eksperymentu 400 tysięcy godzin nagrań dźwięku i obrazu, zebrane z trzech lat ciągłego podglądania dziecka, zostanie poddane analizie komputerowej, by wyłuskać te szczególne momenty sprawiające, że mały człowiek uczy się porozumiewać z dorosłym.


„To jak wsadzenie pod mikroskop zmian, jakie z dnia na dzień i z godziny na godzinę zachodzą w czasie uczenia się języka” – mówi prof. Steven Pinker, psycholingwista z Harvard University.

Uporządkowanie takiego natłoku informacji to zadanie iście herkulesowe – komputery będą musiały przekopać się przez 320 terabajtów danych. Gdy przeliczymy to na numery „Focusa”, wyjdzie z tego przeszło 460 tys. wydań, czyli 38 tys. roczników. Albo inaczej licząc – stos kolejnych numerów wysoki na prawie dwa kilometry. Nie ma się co dziwić, że dziedzina wiedzy, związana z przerobieniem tak wielkiej ilości informacji, po angielsku nazywa się „data mining”, czyli dosłownie „górnictwo danych”. Po polsku mówimy na to ekstrakcja lub eksploracja danych, co już nie oddaje ogromu wyzwania.

To właśnie eksploracja danych jest jedną z najważniejszych dziedzin wiedzy, które ostatnimi czasy wkraczają do komputerów domowych. 250 GB twardego dysku to też niemało – odnalezienie konkretnej informacji, na przykład e-maila sprzed dwóch lat, o którym pamiętamy tylko, że zawierał kilka konkretnych słów, wcale nie jest proste. Sztukę tę opanowała do perfekcji firma Google, która zbiła fortunę na wyszukiwaniu informacji w gigantycznej bazie danych, jaką jest Internet, a teraz udostępnia narzędzia do błyskawicznego przeszukiwania danych we własnym komputerze – także naukowcom.

WYŁUSKAĆ BOSKĄ CZĄSTKĘ

  • Kategoria: Człowiek
  • Data:
  • Źródło:
  • c
Komentarze