Jak przygotować stronę do indeksowania: sitemap, robots.txt, kanonikal i przekierowania

Indeksowanie strony – co to właściwie znaczy?
Google działa w uproszczeniu w trzech krokach:
- Crawling – robot Google odwiedza adresy URL i pobiera treść.
- Indexing – Google analizuje treść i decyduje, czy dany URL dodać do indeksu.
- Ranking – jeśli strona jest w indeksie, może pojawiać się w wynikach.
Przygotowanie strony do indeksowania polega na tym, aby:
- robot mógł łatwo dotrzeć do ważnych podstron,
- Google rozumiało, które adresy są „główne” (kanoniczne),
- nie indeksowały się strony śmieciowe (parametry, filtry, duplikaty),
- użytkownik i bot trafiali na właściwe URL-e bez błędów.
Sitemap (mapa witryny) – jak pomaga w indeksacji?
Co to jest sitemap.xml?
Sitemap to plik (najczęściej sitemap.xml), który zawiera listę adresów URL, jakie chcesz udostępnić wyszukiwarkom do skanowania. To nie gwarancja indeksacji, ale bardzo silna wskazówka dla Google: „tu są ważne strony”.
Gdzie powinna się znajdować?
Standardowo:
twojastrona.pl/sitemap.xml
albo indeks map:
twojastrona.pl/sitemap_index.xml
Co powinna zawierać dobra sitemapa?
- tylko adresy kanoniczne (o tym niżej),
- tylko strony, które mają sens w Google (oferta, kategorie, artykuły),
- aktualne URL-e (bez 404, bez przekierowań),
- w większych serwisach: podział na mapy (np. osobno wpisy bloga, osobno strony usług).
Jak zgłosić sitemap do Google?
Najprościej w Google Search Console:
Indeksowanie → Mapy witryn → dodaj URL mapy
Najczęstsze błędy z sitemap:
- sitemap zawiera URL-e, które mają noindex,
- sitemap zawiera URL-e, które robią 301,
- sitemap zawiera zduplikowane adresy (np. z parametrami),
- sitemap jest nieaktualna po zmianach na stronie.
robots.txt – kontrola dostępu dla botów
Co to jest robots.txt?
Plik robots.txt mówi robotom wyszukiwarek, które części strony mogą skanować, a które mają omijać. To dotyczy crawlowania, a nie bezpośrednio indeksowania (choć w praktyce wpływa na indeksację).
Typowa lokalizacja:
twojastrona.pl/robots.txt
Kiedy robots.txt jest szczególnie ważny?
- gdy masz dużo stron technicznych (koszyk, panel, wyniki wyszukiwania na stronie),
- gdy generują się parametry w URL,
- przy e-commerce z filtrami,
- przy stagingu/testowej wersji serwisu (uwaga: tam często blokuje się wszystko).
Dobre praktyki robots.txt:
- blokuj to, co nie ma wartości w Google (np. /wp-admin/, wewnętrzne wyszukiwarki, koszyk),
- nie blokuj plików CSS/JS, jeśli są potrzebne do renderowania strony (Google musi „widzieć” układ),
Najgroźniejszy błąd w produkcji:
Disallow: /
czyli blokada całej strony.
Canonical – jak uniknąć duplikacji treści
Co to jest canonical?
Tag kanoniczny (rel="canonical") informuje Google, który adres URL jest wersją główną danej treści. To kluczowe, gdy ta sama treść może być dostępna pod wieloma adresami, np.:
- z parametrami: ?utm_source=...
- z filtrowaniem/sortowaniem
- z różnymi wariantami URL (z ukośnikiem/bez, http/https, www/bez www)
Co daje poprawna kanonikalizacja?
- zmniejsza ryzyko duplikacji,
- pomaga skupić „moc” sygnałów (linki, autorytet) na jednym URL,
- ułatwia Google indeksowanie właściwych stron.
Najczęstsze błędy canonical:
- canonical wskazuje na zły adres (np. na stronę główną „z automatu”),
- canonical wskazuje na URL, który ma 301 lub jest 404,
- brak spójności: sitemap podaje inne URL-e niż canonical na stronie,
- canonical na paginacji ustawiony błędnie (w sklepach/archiwach).
Przekierowania (301/302) – porządek w adresach URL
Kiedy przekierowania są potrzebne?
- po zmianie struktury URL (np. redesign, migracja CMS),
- po zmianie domeny,
- gdy usuwasz podstrony i zastępujesz je innymi,
- gdy porządkujesz wersje: http → https, www → bez www (lub odwrotnie),
- gdy łączysz podobne treści w jedną mocniejszą.
301 vs 302 – jaka jest różnica?
- 301 (przekierowanie trwałe) – standard dla SEO, gdy zmiana jest na stałe.
- 302 (tymczasowe) – gdy zmiana jest chwilowa (np. testy, czasowe promocje).
W większości przypadków porządkowania strony używa się 301.
Dobre praktyki przekierowań:
- przekierowuj 1:1 tematycznie (stara podstrona usługi → nowa podstrona tej usługi),
- unikaj łańcuchów (A → B → C),
- unikaj pętli,
- nie przekierowywuj masowo wszystkiego na stronę główną (to zły sygnał i słabe UX).
Co z błędami 404?
404 nie zawsze jest zły — jeśli treść faktycznie nie istnieje i nie ma sensownego zamiennika, lepsze jest uczciwe 404 niż przekierowanie „gdziekolwiek”. Jeżeli strona miała ruch/linki, warto przygotować sensowne przekierowanie.
Podsumowanie
Sitemap, robots.txt, canonical i przekierowania to techniczne podstawy, które decydują o tym, czy Google w ogóle będzie w stanie sprawnie przetwarzać Twoją stronę. Jeśli te elementy są ustawione poprawnie, SEO ma solidny fundament: roboty trafiają tam, gdzie trzeba, a Google rozumie, które adresy są najważniejsze.
Nowe wpisy
FAQ na stronie: jak zwiększa SEO i odciąża obsługę klienta

Po co robić FAQ, gdzie je umieścić i jak pisać pytania/odpowiedzi, żeby działały zarówno dla użytkow...
HTTPS, certyfikat SSL i bezpieczeństwo strony: co musisz mieć?

W tym artykule dowiesz się co to jest HTTPS, jak działa SSL/TLS i jakie elementy bezpieczeństwa stro...
Rola szybkości ładowania strony w SEO i konwersjach

Szybkość strony wpływa na pozycje w Google i konwersje. Zobacz, jak mierzyć Core Web Vitals i co na...

