Jak działają wyszukiwarki internetowe?

Jack Menzel od 5 lat jest dyrektorem zarządzającym w Google Search. O tym, jak działa wyszukiwarka internetowa, zgodził się opowiedzieć specjalnie dla czytelników „Sekretów Nauki”. Jak się okazuje, program pracuje na pełnych obrotach, jeszcze zanim ktokolwiek o cokolwiek zapyta.

„Koncerty w Gdańsku” – taką frazę wpisałem w popularnych googlach. Wystarczyła 1/4 sekundy, abym zobaczył pierwszą stronę z wynikami, których łącznie jest aż 10 milionów. Co się właściwie w tym czasie stało?

– Pierwszą rzeczą, jaką robimy w Google’u jest zbieranie informacji o tym, co może być tematem wyszukiwań. A że internauci mogą zapytać dosłownie o wszystko, sami musimy doskonale poznać zawartość sieci. Naszym zadaniem jest więc przejrzenie każdej witryny i stworzenie pewnego rodzaju kopii internetu. Ponieważ większość stron jest regularnie aktualizowana, proces ten wykonuje się właściwie na okrągło. Nasi inżynierowie doskonale wiedzą, które witryny przeglądać co kilka minut, a które, powiedzmy, co kilka miesięcy – wyjaśnia Jack.

– Na podstawie gotowej już bazy tworzymy tzw. indeks. W pewnym sensie przypomina on biblioteczny spis, który zawiera informacje, na której półce znajdziemy interesującą nas książkę. Wpisując pytanie do wyszukiwarki, właśnie ten indeks jest przeszukiwany. Podając swoją koncertową frazę, już w trakcie pisania uzyskałem pierwsze wyniki. Oczywiście im więcej liter wpisałem, tym sugestie stron były dokładniejsze.

– Stworzyliśmy model, który pozwala użytkownikowi szybciej otrzymywać dokładniejsze rezultaty. Za każdym razem kiedy naciśnie ENTER, dane lecą do naszego centrum serwerowego i z powrotem – mówi specjalista z Google. Każdego dnia serwery w centrali odpowiadają na miliard zapytań. Najpierw muszą jednak zrozumieć, co do nich mówimy, a wcale nie jest to proste. – My jako ludzie porozumiewamy się zazwyczaj bez problemów. Kiedy sam niewyraźnie wypowiem jakieś słowo, mój rozmówca nie będzie miał raczej kłopotu z odgadnięciem, co miałem na myśli. Z kontekstu wywnioskuje, o co mi chodzi. Komputery nie radzą sobie z tym już tak dobrze. Staramy się więc automatycznie poprawiać pisownię i nadać wpisanej frazie postać zrozumiałą dla maszyny. Dopiero wtedy specjalny algorytm znajdzie najlepiej pasujące do zapytania wyniki i ustawi je w odpowiedniej kolejności. Pod uwagę bierzemy aż 200 różnych parametrów, takich jak liczba odnośników, które prowadzą do danej strony, język, lokalizacja i inne dane na temat internauty, wprowadzającego zapytanie.

Bo Google naprawdę sporo wie na nasz temat. Firma tłumaczy się, że dzięki temu może przygotować spersonalizowane, a przez to dokładniejsze wyniki.

– Chcemy, aby komputer zachowywał się jak człowiek. Jeśli znajomy zapyta mnie o kawiarnię, a będziemy akurat w Nowym Jorku, polecę mu te, które znajdują się na najbliższej ulicy. Jeśli zapyta o to wyszukiwarkę, pisząc z centrum swojego miasta, komputer – znając jego lokalizację – podpowie okoliczne lokale. Jeśli znam gust znajomego, zaproponuję mu kilka specjalnie pod niego wybranych miejsc. Podobnie komputer znający zainteresowania użytkownika i wcześniej odwiedzane strony, może wziąć takie informacje pod uwagę.

Czy powinniśmy bać się o naszą prywatność? Jack zapewnia, że nie. – Sprawę prywatności traktujemy bardzo poważnie i upewniamy się, że wszyscy zainteresowani wiedzą, z jakich informacji korzystamy. Każdą opcję można wyłączyć – tłumaczy.

Swoje poszukiwania prowadziłem w Gdańsku. Już po wpisaniu słowa „koncerty”, system zasugerował mi kolejne: „Gdańsk” i „Trójmiasto”, wiedział więc, gdzie się znajduję. Po dodaniu przyimka „w” zobaczyłem propozycję „strefy kibica Gdańsk”, bo akurat był to czas Euro. Wyszukiwarka wiedziała zatem, co może być dla mnie istotne. Ale system, który oprowadza nas po coraz bardziej zatłoczonej sieci, może być jeszcze sprytniejszy – zamiast linków do poszczególnych stron dostarczy nam gotową porcję wiedzy.

Wyobraźmy sobie, że interesują nas wszystkie pomniki wpisane na listę UNESCO, które powstały przed Tadż Mahal, albo roczne zmiany temperatury i zasolenia wszystkich jezior w Szwecji. Oczywiście również bez pomocy nowoczesnych technologii jesteśmy w stanie dotrzeć do tych informacji, ale zajmie nam to mnóstwo czasu.

– W nowym systemie Knowledge Graph próbujemy zbudować model całego świata, wszystkich jego istotnych elementów i powiązań między nimi. System udziela konkretnych odpowiedzi i sugeruje miejsca, w których wiedzę na dany temat można pogłębić. Wprowadziliśmy już taką technologię w Stanach Zjednoczonych, a teraz rozszerzamy ją na resztę świata. W podobny sposób będzie można znaleźć informacje o ludziach, np. naszych znajomych czy ekspertach z jakiejś dziedziny – mówi Jack Menzel.

 

JAK DZIAŁA WYSZUKIWARKA INTERNETOWA?

1 Wpisujemy frazę do wyszukiwarki. Po każdym naciśnięciu klawisza zapytanie wędruje do centrum serwerowego. Wysyłane informacje zostają podzielone na tak zwane pakiety, które podróżują do serwera niemal z prędkością światła. Każdy pakiet wybiera najkrótszą drogę, omijając zatory na łączach. To dlatego natychmiast widzimy podpowiedzi. Na przykład kiedy wpiszemy do wyszukiwarki początek zapytania „W jaki sposób…”, to Google od razu zaproponuje nam dokończenie frazy: „W jaki sposób działa zmysł wzroku?”, „W jaki sposób gola strzelił Rivaldo?”, „W jaki sposób powstały Żuławy?”.

2 Zanim jeszcze skończymy wpisywać zapytanie, na ekranie pojawią się pierwsze wyniki. Jest to możliwe, ponieważ czas między naciśnięciem kolejnych klawiszy wynosi średnio 1/3 sekundy, a tylko 10 razy mniej potrzebujemy, aby spojrzeć na dalszą część strony.

3 Zapytanie analizuje jeszcze jeden program, będący pilnie strzeżoną tajemnicą Google. To algorytm o nazwie Page Rank, który jeszcze w czasie studiów stworzyli twórcy wyszukiwarki Larry Page i Sergey Brin. Program określa „atrakcyjność” danej witryny na podstawie liczby i jakości innych stron, które się do niej odnoszą. Innymi słowy – im więcej odnośników prowadzi do danej strony, tym większe prawdopodobieństwo, że strona ta znajdzie się na początku wyników wyszukiwania. Program oczywiście bierze także pod uwagę inne parametry, takie jak słowa użyte na stronie, jej struktura, historia, język, lokalizacja i historia aktywności użytkownika, który wpisał zapytanie. Poza tym Page Rank doskonale orientuje się w bieżących trendach: jeśli jakiś temat jest akurat na czasie, nowsze strony zostaną wyświetlone wyżej niż starsze.

4 Strona z wynikami jest czasami uzupełniona o propozycje zdjęć i nagrań filmowych. Do tego Google dodaje reklamy, które są oczywiście dobrane pod konkretnego użytkownika. Spersonalizowany zestaw reklam przygotowuje się, biorąc pod uwagę wpisywane frazy i informacje o użytkowniku.