Googlebot – co to jest i jak działa?

blog-banner-bee

Googlebot to główny sprawca tego, że Twoja strona internetowa w ogóle pojawia się w wynikach wyszukiwania. Roboty Google przemierzając Internet, dodają poszczególne podstrony do swojego indeksu. Jak dokładnie działają i czym są? Odpowiadamy na najważniejsze pytania.

Googlebot - co to jest?

Robot internetowy – co to jest?

Robot internetowy to program komputerowy danej wyszukiwarki internetowej, którego celem jest gromadzenie informacji związanych ze strukturą czy zawartością stron. Sprawdza m.in. kod witryny, śledzi aktualizacje, robi kopie. Robot internetowy bywa również nazywany botem indeksującym, web crawlerem, pająkiem czy spiderem.

Googlebot (robot Google) – co to jest?

Googlebot, jak sama nazwa sugeruje, to robot indeksujący wyszukiwarki Google. Wyróżnia się jego dwa główne rodzaje – jeden działa w obrębie komputerów, a drugi urządzeń mobilnych. Oba symulują działania realnych użytkowników poruszających się po danej witrynie. Strony internetowe są najczęściej indeksowane przez oba typy Googlebota.

Jak działa Googlebot?

Googlebot działa w oparciu m.in. o mapę witryny, adresy URL przesłane w Google Search Console oraz bazy danych z linkami wykrytymi w trakcie wcześniejszych indeksowań (w tym na przykład z wizytówki Google Moja Firma czy z katalogów internetowych). W ten sposób Googlebot priorytetyzuje zasoby do indeksacji, pobiera strony i przechowuje ich kopie. Jeśli robot Google natknie się przykładowo na nowe odnośniki, dołączy je na listę stron, które wymagają odwiedzenia w następnej kolejności. Jeżeli natomiast natrafi na zepsute lub zmienione linki, to również odnotuje konieczność aktualizacji indeksu.

Googlebot przetwarza znalezione strony po to, by znaleźć większą liczbę linków, w tym do żądań API, JavaScript i CSS, które są potrzebne do renderowania strony przez Google’a. Dzięki temu wykorzystywane są zasoby z pamięci podręcznej, tak aby wyświetlać strony w taki sposób, jak zrobiłby to realny użytkownik serwisu. Zawartość renderowanych stron jest przechowywana i przeszukiwana w indeksie Google’a. Bot przetwarza ją w poszukiwaniu zmian na stronie lub nowych linków, które wymagają zaindeksowania.

Rodzaje robotów indeksujących

Jak wspomniano wcześniej, można wyróżnić Googlebota, który działa w obrębie komputerów i urządzeń mobilnych (Googlebot indeksujący strony na smartfony), ale to nie wszystko. Na przykład Google AdSense i AdsBot czuwają nad jakością reklam. Wśród innych znajduje się również:

  • Googlebot Image – indeksujący obrazy,
  • Googlebot News – indeksujący newsy,
  • Googlebot Video – indeksujący filmy wideo.

Oprócz robota indeksującego Google można wskazać boty innych wyszukiwarek, którym warto zezwolić na indeksację zawartości Twojej witryny. Można tu wymienić chociażby Bingbot, Pająk Baidu, Yandex Bot.

Rola robotów Google w SEO

Google to bez wątpienia najpopularniejsza wyszukiwarka na świecie – korzysta z niej 92% użytkowników, w Polsce aż 96%. W praktyce oznacza to, że pochodzi z niej zdecydowana większość ruchu, dlatego też wskazówki optymalizacyjne tworzone są z myślą o Google’u. Aby użytkownik mógł trafić na Twoją stronę, Google musi wystarczająco dużo wiedzieć na temat Twoich zasobów, rozpoznać ich tematykę. Może to osiągnąć właśnie dzięki Googlebotowi i procesowi indeksowania. Roboty Google analizują treści, katalogują obrazy, wideo i na tej podstawie definiują, o czym jest strona. Uzyskane dane są zapisywane w indeksie. Dzięki temu później użytkownikowi wyświetla się najtrafniejsza odpowiedź, ponieważ Google przeszukuje swój indeks i dobiera odpowiednie wyniki, uwzględniając przy tym wiele czynników algorytmicznych.

Gdzie sprawdzić, jak Googlebot widzi stronę?

Aby sprawdzić, czy Twoja strona indeksuje się prawidłowo, skorzystaj z Google Search Console. Dzięki temu narzędziu dowiesz się, jak Twoja witryna jest widziana przez Googlebota oraz poznasz ewentualne błędy indeksowania, które wymagają naprawy. Po wejściu w zakładkę Stan w sekcji Indeksowanie znajdziesz szczegółowy raport.

Sprawdzanie indeksacji - Google Search Console

Z kolei w zakładce Sprawdzenie adresu URL możesz się upewnić, czy dana strona została zaindeksowana przez robota. Warto zwrócić uwagę na przycisk Sprawdź URL w wersji opublikowanej, który sprawdzi, czy może on zostać zindeksowany przez Google. Taka funkcja jest przydatna, gdy edytowałeś stronę i chcesz ją przetestować względem zindeksowanej wersji.

Sprawdzanie indeksacji URL w Google Search Console

Jeśli strona nie została zindeksowana przez robota, wybierz opcję Poproś o zindeksowanie.

Prośba o indeksację w Google Search Console

Do bardziej zaawansowanej analizy tego, jak Google widzi Twoją stronę, można użyć Screaming Frog SEO Log File Analyzer. Zdarza się jednak, że niektóre narzędzia SEO lub złośliwe crawlery tylko udają, że są Googlebotem, próbując uzyskać w ten sposób dostęp do stron, które blokują przed nimi zawartość. Na szczęście Google udostępnił listę publicznych adresów IP pozwalających zweryfikować w logach serwera, czy masz rzeczywiście styczność z robotem indeksującym tej wyszukiwarki.

Jak ułatwić Googlebotowi indeksację strony?

Można wskazać kilka czynników, które ułatwiają indeksację strony Googlebotowi. Oto najważniejsze:

Jak ułatwić indeksację strony Googlebotowi?
  1. Dobrze widoczna treść

    Korzystanie z takich technologii jak Ajax czy JavaScript nie jest wskazane, ponieważ Googlebot może mieć trudności z indeksowaniem takich witryn. Poza tym lepiej przekazywać treść za pomocą tekstu niż obrazów – roboty Google choć odczytują obrazy i filmy, to nie w tak dobrym stopniu jak teksty. Poza tym wciąż obowiązuje zasada content is the king. Dlatego wszelkie multimedia powinny być jedynie dodatkiem do podstawowego opisu. W przypadku gdy umieszczamy na stronie podcast, transkrypcja nagrania mogłaby przełożyć się na lepszą pozycję w SERP-ach, ponieważ strona z embedowanym plikiem audio byłaby uboga w treść i nie miałaby szans na wysokie rankowanie w Google’u. Nie zapomnij też o tym, by nie zostawiać opisów alternatywnych grafik pustych.

  2. Stosowanie linków kanonicznych

    Linki kanoniczne pomogą Googlebotowi w określeniu właściwej wersji zduplikowanych stron. Te same strony dla wielu adresów URL nie tylko dezorientują roboty indeksujące, ale również spowalniają proces indeksowania i zmniejszają crawl budget.

  3. Dodanie pliku robots.txt

    Plik robots.txt to jeden z pierwszych elementów, których szuka Googlebot podczas indeksowania witryny. Pozwala on zablokować przed robotem dostęp do nieistotnych z punktu widzenia SEO podstron. Dzięki temu robot indeksujący będzie mógł skupić się na wizytach na bardziej wartościowych witrynach. Dlatego tak ważne jest dodanie pliku robots.txt i zamieszczenie linku do niego w sitemapie. Szczególnie należy uważać na sytuację, gdy deweloper omyłkowo blokuje dostęp do całej witryny, na przykład podczas migracji strony. Nawet szybka naprawa może skutkować spadkami ruchu i widoczności na kilka tygodni.

  4. Rozbudowanie contentu

    Im częściej strona internetowa jest indeksowana, tym wzbudza większe zainteresowanie Google’a, który docenia merytoryczne treści i może ją lepiej oceniać, tworząc ranking SERP.

  5. Linkowanie wewnętrzne

    Linki wewnętrzne ułatwią Googlebotowi poruszanie się po witrynie i usprawniają przebieg indeksacji.

  6. Przesłanie mapy witryny

    Stanowi ona listę wszystkich adresów URL strony internetowej, dzięki czemu robot Google łatwiej znajduje najbardziej wartościowe podstrony. Dzięki sitemapie indeksowanie przebiega szybciej i częściej. Jeżeli masz rozbudowany serwis lub prowadzisz sklep internetowy, bardziej efektywnym rozwiązaniem będzie stworzenie więcej niż jednej sitemapy – w dodatkowej możesz umieścić adresy URL do obrazów. Warto również pamiętać o tym, aby linki w mapach witryny zawsze zwracały kod 200. Strony z błędem 404 lub przekierowaniami 301 powinny zostać usunięte.

Jak zablokować Googlebotowi dostęp do witryny?

Istnieje kilka sposobów blokowania treści, by nie pojawiały się w Google, na przykład:

  • ograniczenie dostępu do treści – w związku z tym, że Google nie loguje się do stron internetowych, zastosowanie hasła lub uwierzytelnienia nie pozwoli mu zobaczyć treści.
  • usunięcie zawartości – chyba najbardziej oczywisty sposób, ponieważ usunięta strona przestanie być indeksowana, ale skutkuje to tym, że trwale tracisz do niej dostęp.
  • atrybut „noindex” w tagu metarobots – taka dyrektywa informuje roboty Google o nieindeksowaniu strony.
  • atrybut nofollow – wskazuje Googlebotowi, że nie należy podążać za danym linkiem. Jednak w związku z tym, że to tylko wskazówka może zostać zignorowana.
  • metatag nosnippet – służy do blokowania opisów w wynikach wyszukiwania.
  • blokowanie obrazów w pliku robots.txt – plik robots.txt umożliwia wykluczanie plików graficznych, ale również wideo czy dźwiękowych z wyników wyszukiwania Google. Użytkownicy i inne strony mogą jednak do nich dotrzeć za pośrednictwem linków.

Roboty Google w Twoim pozycjonowaniu

Roboty wyszukiwarki Google odgrywają kluczową rolę w pozycjonowaniu. Jeśli Twoja witryna została dobrze zoptymalizowana technicznie, będzie przez nie często odwiedzana. Sprzyja temu również dodawanie nowych treści. A w przypadku dużych zmian, pamiętaj, by roboty indeksujące dostały o tym informację, na przykład za pośrednictwem Google Search Console.

Udostępnij artykuł:
Chcesz sprawdzić, czy Googlebot poprawnie indeksuje Twoją stronę?
Zleć audyt swojej strony
Oceń artykuł:
5
Ocena: 5 Liczba głosów: 2