Crawler – definicja
Najprostsza definicja crawlera podaje, że jest to program komputerowy wykorzystywany przez wyszukiwarki internetowe w celu sprawdzania zawartości danej witryny, zbierania o niej informacji i katalogowania. To właśnie crawlery decydują o tym, co i kiedy zostanie zaindeksowane przez daną wyszukiwarkę.
Crawler – inne nazwy
Crawler funkcjonuje także pod innymi nazwami, takimi jak:
- robot sieciowy,
- bot indeksujący,
- bot wyszukiwarki,
- pełzacz,
- web crawler,
- crawler bot.
Jak działa Crawler?
Roboty indeksujące pobierają witryny, a następnie je skanują i decydują, czy daną stronę warto zaindeksować.
Crawling to początkowy etap indeksowania stron internetowych. Wyszukiwarka zbiera wówczas w bazie danych zawartość podstrony z uwzględnieniem wszystkich słów czy informacji zawartych w tagach. Bot przetwarza także filmy i zdjęcia. Następnie algorytmy wyszukiwarki analizują indeks podstron znajdujących się w bazie i układają wyniki wyszukiwania pojawiające się na wpisane przez użytkowników hasła.
Crawlowanie witryny przyspieszy regularne publikowanie nowych treści na stronie czy dodanie sitemapy.
Aby sprawdzić, czy strona została zaindeksowana, wystarczy wpisać site:nazwastrony.pl. Jeżeli tak się nie stało, to prawdopodobnie powodem jest brak lub niewystarczająca ilość linków prowadzących do witryny albo zbyt młody wiek domeny, szczególnie jeśli jest nowo powstała.
Na końcu powstaje ranking stron, czyli miejsce danej strony w wynikach wyszukiwania.
Jak rozpoznać bota/crawlera?
Do rozpoznania bota na swojej stronie, niezbędna będzie podstawowa wiedza techniczna. Aktywność crawlera jest możliwa do sprawdzenia w logach serwera. Kod, który może wskazywać na jego obecność, to na przykład:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Najpopularniejsze Web Crawlery
Indeksowanie strony internetowej przebiega przy użyciu różnych robotów - każda wyszukiwarka ma swoje crawlery. Przedstawiamy te najpopularniejsze.
Googlebot
Google zdominował rynek wyszukiwarek internetowych – korzysta z niego dziewięć na dziesięć użytkowników. Poprzez skanowanie witryn odnajdywanych za pomocą odnośników (linków) Web crawler tworzy indeks wyszukiwarki Google.
Bingbot
To robot indeksujący stworzony przez firmę Microsoft na potrzeby wyszukiwarki Bing. Jego działanie jest analogiczne do pracy Googlebota.
Yandexbot
Yandexbot to z kolei dedykowany bot dla rosyjskiej wyszukiwarki Yandex.
Website crawlery dla SEO
Crawlery wykorzystuje się również powszechnie w SEO. Najpopularniejszym z nich jest Screaming Frog, czyli aplikacja internetowa umożliwiająca analizę czynników on-site danej witryny. Taki website crawler jest szczególnie przydatny przy dużych serwisach, gdzie ręczna analiza strony byłaby czasem wręcz niemożliwa.
Powiązane wpisy na blogu
Najpopularniejsze wyszukiwarki w Polsce i na świecie
Każdy z nas niemal codziennie wpisuje dziesiątki fraz w pole wyszukiwarki internetowej – od prognozy pogody przez najlepsze buty do biegania aż po minifrezarki do drewna.
Googlebot – co to jest i jak działa?
Googlebot to główny sprawca tego, że Twoja strona internetowa w ogóle pojawia się w wynikach wyszukiwania. Roboty Google przemierzając Internet, dodają poszczególne podstrony do swojego indeksu. Jak dokładnie działają i czym są? Odpowiadamy na najważniejsze pytania.
Google nie indeksuje strony – dlaczego? Poradnik
Dobrze zoptymalizowana pod SEO witryna to jeszcze nie wszystko. Aby w ogóle była ona brana pod uwagę w SERP-ach, jej treści muszą znaleźć się w bazie danych wyszukiwarki. Jednak w niektórych sytuacjach Google nie indeksuje strony.