Czym jest crawl budget - indeksowanie w pigułce

Aby Google mógł ustalać ranking poszczególnych stron, musi zapisywać je w swoim indeksie. Choć moce przerobowe wyszukiwarki są imponujące, to jednak mają swoje ograniczenia. Związany jest z tym m. in. crawl budget. W tym artykule dowiesz się, czym dokładnie jest budżet indeksowania, kiedy i dlaczego trzeba go brać pod uwagę oraz jak optymalizować strony z myślą o nim.

Czego dowiesz się z artykułu?

Crawl budget – czym jest?
Czy crawl budget jest ważny?
Jak często Google indeksuje strony?
Statystyki indeksowania stron – jak je sprawdzić?
Co wpływa na budżet indeksowania?
Jak poprawić crawl budget?
Crawl budget – podsumowanie

Crawl budget – czym jest?

Crawl budget to liczba stron, jakie wyszukiwarka jest w stanie przeanalizować (proces ten nazywany jest crawlingiem) w danym okresie. W przypadku tego terminu niekiedy zamiennie używa się pojęcia budżet indeksowania witryny. Choć crawling i indeksowanie to dwa różne pojęcia, to z racji tego, że ten drugi proces zachodzi zwykle zaraz po tym pierwszym, to taka terminologia jest akceptowalna. Wyszukiwarki nie mają nieograniczonych zasobów, bo w końcu analizują liczne treści w obrębie milionów stron internetowych. Googleboty muszą w jakiś sposób nadawać priorytet swoim działaniom – dzieje się to właśnie poprzez przydzielanie budżetu poszczególnym witrynom. Crawl budget dotyczy nie tylko samych adresów URL, ale właściwie wszelkich dokumentów, w przypadku których można dokonać crawlingu, jak pliki JavaScript, CSS, PDF, wersje mobilne witryny itp. W tym artykule dla uproszczenia będziemy jednak odnosić się do samych stron.

W przypadku ustalania budżetu pod uwagę są brane dwa główne czynniki:

crawl rate limit – preferencje właściciela strony oraz kwestie techniczne, które ograniczają zakres crawlingu, jaki witryna może obsługiwać,
crawl demand – popyt na indeksowanie, który uzależniony jest od wielkości strony oraz częstotliwości pojawiania się na niej nowych treści.

Czy crawl budget jest ważny?

Na początek warto zaznaczyć, że w przypadku większości małych i średnich stron internetowych budżetem indeksowania w sumie nie trzeba się przejmować. Na takich witrynach zaindeksowanie nowych treści zwykle odbywa się jeszcze w ciągu kilku dni. O ile Twoja strona nie składa się z kilku tysięcy lub nawet ponad 10 000 podstron, crawling i indeksowanie powinny zachodzić bezproblemowo. Jeśli jednak prowadzisz np. duży sklep internetowy lub stronę z zawartością dynamicznie generowaną przez użytkowników (jak forum) ustalanie priorytetów dotyczących indeksowania, skanowania i zakresu tych procesów po stronie serwera staje się bardzo ważne.

W końcu chcesz, aby Google znalazło jak najwięcej Twoich treści i jak najszybciej zamieściło je w wynikach wyszukiwania. Kiedy dodajesz nowe strony i aktualizujesz istniejące, Twoim celem jest to, aby wyszukiwarka „wyłapała” je tak szybko, jak to możliwe. W końcu im wcześniej zakończy się proces ich crawlingu i indeksacji, tym szybciej zyskasz nowe odwiedziny. Jeśli jednak Twój crawl budget jest źle zoptymalizowany, Google nie będzie w stanie efektywnie przeszukiwać witryny. Zamiast tego boty spędzą czas na tych sekcjach strony, w których nie dochodzi zbyt często do zmian, przez co nowe podstrony pozostaną nieodkryte, a te ważne niezaktualizowane. Jak więc widać, złe praktyki w przypadku budżetu indeksowania mogą doprowadzić do problemów z pozycjonowaniem i wyciąganiem maksymalnych efektów z treści zawartych na stronie.

Jak często Google indeksuje strony?

Ponieważ Googlebot może przeszukać tylko ograniczoną zawartość w danym czasie, daje pierwszeństwo tej, która powinna być indeksowana najczęściej. Z tego powodu Google przydziela najwyższy priorytet stronie głównej i stronom kategorii wysokiego poziomu. Będą one przeszukiwane najczęściej, aby wszelkie zmiany miały swoje odzwierciedlenie w wyszukiwarce. W praktyce do crawlingu takich stron dochodzi zwykle co kilka dni, a w niektórych sytuacjach nawet częściej. Z kolei w przypadku niektórych typów stron proces ten ma miejsce co kilka tygodni. Trudno w każdej sytuacji dokładnie określić szybkość indeksowania, gdyż w grę wchodzi wiele czynników. Dlatego lepiej jest samodzielnie sprawdzić, jak procesy te wyglądają na Twojej stronie.

Więcej na temat indeksowania znajdziesz na https://www.google.com/search/howsearchworks/how-search-works/organizing-information/

Przeczytaj także:

Google nie indeksuje strony – dlaczego? Poradnik

Statystyki indeksowania stron – jak je sprawdzić?

Jeśli chcesz uzyskać maksymalnie dokładne dane na temat crawlingu, najlepszym rozwiązaniem będzie analiza logów serwera. Każdy renomowany dostawca hostingu powinien zapewniać możliwość ich wygenerowania. W przypadku mniejszych stron do ich analizy wystarczy SEO Log File Analyser w ramach programu Screaming Frog (sama darmowa wersja ma świetne funkcjonalności).

Jeśli jednak mowa o dużych stronach, zapewne lepszym wyjściem będą bardziej zaawansowane narzędzia, jak Sematext Logs, Sumo Logic, Graylog lub LogDNA. Analiza takich logów pozwoli Ci bezpośrednio sprawdzić odwiedziny Googlebota w witrynie. Otrzymasz dokładny wgląd w to, jak zachodzi proces crawlingu.

Z pomocą przychodzi tutaj także Google Search Console. Raport Statystyki indeksowania pozwala zorientować się w liczbie wysłanych żądań, czasie odpowiedzi serwera i (co bardzo ważne) problemach z dostępnością i wyświetlaniem. Aby znaleźć omawiany raport, w Google Search Console, wybierz po lewej stronie zakładkę Ustawienia, a następnie otwórz Raport Statystyki indeksowania.

Statystyki indeksowania w Google Search Console

Co wpływa na budżet indeksowania?

Jeśli wyszukiwarka nie uzna, że dana strona zasługuje na uwagę, aktywność Googlebota (a więc i crawl budget) w jej przypadku będzie niska. Najbardziej na ten czynnik wpływają:

popularność – często odwiedzane adresy URL powinny być zawsze aktualne, dlatego należy je aktualizować częściej, co wiąże się z wysokim budżetem na crawling,
częstotliwość wprowadzania zmian – priorytetem systemów Google jest to, aby nie przechowywać w indeksie nieaktualnych adresów URL, dlatego strony, na których często dochodzi do zmian/edycji, będą regularnie sczytywane.

Oprócz tego na przydzielony budżet mogą wpłynąć większe przedsięwzięcia, jak migracja całej witryny. Taki scenariusz sprawia oczywiście, że zapotrzebowanie na indeksowanie znacznie wzrasta. Znaczący negatywny wpływ na budżet mają także czynniki techniczne. Oto najważniejsze z nich (kolejność według istotności):

nawigacja fasetowa – źle skonfigurowane kombinacje różnych filtrów mogą prowadzić do duplikacji treści i ogólnego zamieszania, które utrudnia botom crawling,
identyfikatory sesji – gdy informacje o użytkowniku lub te dotyczące trackingu są przechowywane za pomocą parametrów URL, może dojść do duplikacji treści, gdyż ta sama strona jest dostępna za pośrednictwem wielu adresów URL,
duplikacja treści – kiedy Google indeksuje identyczny content na różnych URL-ach, “rozwadnia” to znaczenie linków,
strony pozornych błędów (soft 404) – prawidłowe zgłaszanie nieistniejących stron za pomocą kodów 404 lub 410 jest w stanie poprawić zasięg indeksowania najlepszych treści witryny. Oprócz tego strony o pozornych błędach mogą dezorientować użytkowników, co negatywnie wpływa na odwiedziny, czas spędzony na stronie itp.,
zhakowane strony – jeśli Google podejrzewa, że dana strona została zhakowana, nie będzie chciał przydzielać jej budżetu na crawling,
nieskończone przestrzenie – pojęcie to odnosi się do sytuacji, gdy dana strona tworzy praktycznie nieskończoną kombinację linków (np. kolejny dzień w kalendarzu lub różne warianty filtrów w sklepie). Jeśli Googlebot nie rozpozna tego procederu (co można mu ułatwić), nadwyręży to budżet indeksowania witryny,
serwer proxy – jeśli przekierowania tworzone przez serwery pośredniczące nie są dobrze skonfigurowane, powodują opóźnienia w komunikacji i przesyłaniu danych, co marnuje crawl budget,
treści niskiej jakości i spam – content bardzo niskiej jakości ogólnie źle wpływa na pozycjonowanie i może generować problemy techniczne, co negatywnie przekłada się na budżet indeksowania.

Jak poprawić crawl budget?

Istnieje kilka sprawdzonych sposobów na poprawę budżetu indeksowania.

Zablokuj niektóre sekcje strony

Jeśli niektóre sekcje witryny nie muszą (a wręcz nie powinny) być widoczne dla odwiedzających, zablokuj je za pomocą robots.txt. Oczywiście dobrze upewnij się, zanim to zrobisz – na pewno nie chciałbyś zasłonić przed Google’em istotnych treści. Pozycjonowanie sklepu internetowego może wymagać wyłączenia z indeksowania także niektórych filtrów produktów – w końcu każda kombinacja tworzy potencjalnie nowe linki. Zostaw dlatego jedynie te najważniejsze z nich, które Googlebot faktycznie powinien brać pod uwagę.
Zredukuj łańcuchy przekierowań

Gdy Google napotka redirect 301, nie zawsze automatycznie za nim podąży. Czasami wraca do niego dopiero później. Choć Googlebot może dysponować jeszcze budżetem, to po prostu go nie wykorzysta. Oprócz tego łańcuchy przekierowań same w sobie są problematyczne. Jeśli przykładowo strona www kieruje do wariantu bez www, a następnie wersja HTTP odnosi do wersji HTTPS, wszędzie mają miejsce 2 pośredniczące odniesienia, co bardzo wydłuża crawling.
Umiejętnie stosuj linkowanie wewnętrzne

Choć linkowanie wewnętrzne może bardzo pomóc w pozycjonowaniu strony, to jednak należy stosować je we właściwy sposób. Upewnij się, że do najważniejszych stron kieruje dużo wewnętrznych przekierowań. Będzie to sygnałem dla Googlebota, że powinien nadać im priorytet. Nie zapominaj jednak o tych mniej ważnych podstronach – do nich także powinieneś utworzyć nieco linków, aby nie zostały kompletnie zapomniane przez Google’a. Zachowaj jednak tutaj rozwagę. Jeśli zaczniesz dodawać zbyt dużo odnośników z myślą o tym, aby ogólnie wypromować takie podstrony, istnieje szansa, że przyniesie to negatywne skutki. Gdy struktura linkowania przyjmie źle zorganizowany kształt, Googlebot może zacząć spędzać zbyt dużo czasu na stronach, które nie są istotne, a do niektórych z nich w ogóle nie dotrze. Za pomocą takiego linkowania „podratujesz” także starsze treści. Jeśli np. na regularnie prowadzonym blogu masz artykuł sprzed kilku lat, który dalej generuje dużo ruchu, naturalnie będzie on spychany na dół w strukturze odnośników. Dzięki przekierowaniom wewnętrznym możesz jednak nadać mu większy priorytet z punktu widzenia crawlingu.

Crawl budget – podsumowanie

Gdy Google tworzy wyniki wyszukiwania, stara się promować aktualne i świeże treści. Dlatego dbanie o crawl budget jest ważne, jeśli chcesz, aby zawartość Twojej strony była prawidłowo sczytywana i indeksowana. Jeśli uważasz, że potrzebujesz pomocy w tym zakresie, skorzystaj z usług specjalistów.

Potrzebujesz pomocy specjalistów?

Skontaktuj się z nami