Strona zeskanowana ale jeszcze nie zindeksowana
Strona zeskanowana ale jeszcze nie zindeksowana to status w Google Search Console oznaczający, że Googlebot odwiedził dany adres URL, pobrał jego zawartość i przeanalizował ją, ale finalnie podjął algorytmiczną decyzję o niewłączaniu tej strony do indeksu wyszukiwarki. Jest to sygnał, że problem nie leży w dostępności technicznej (robot dotarł do strony), lecz najczęściej w ocenie jakości samej treści, strukturze serwisu lub ogólnym autorytecie domeny, który nie uzasadnia zużycia zasobów na przechowywanie tej konkretnej podstrony w bazie danych Google.
- Co oznacza status "Strona zeskanowana ale jeszcze nie zindeksowana"?
- Dlaczego Google nie indeksuje stron mimo ich zeskanowania?
- Jakie aspekty techniczne powodują brak indeksacji?
- Specyfika problemu w sklepach internetowych (eCommerce)
- Jak krok po kroku zdiagnozować i naprawić błędy w Google Search Console?
- Kiedy warto zastosować Content Pruning?
- Jak zapobiegać problemom z indeksacją?
Wielu właścicieli stron błędnie interpretuje ten komunikat jako błąd techniczny wymagający natychmiastowej interwencji w kodzie. W rzeczywistości jest to często mechanizm obronny wyszukiwarki przed zanieczyszczaniem indeksu treściami o niskiej wartości, duplikatami lub stronami, które nie wnoszą nowej wartości dla użytkownika końcowego. Zrozumienie tego niuansu jest kluczowe dla skutecznego rozwiązania problemu, ponieważ naprawa rzadko polega na ponownym zgłoszeniu adresu do indeksacji, a częściej na fundamentalnej pracy nad jakością serwisu.
Co warto wiedzieć:
- Status „Strona zeskanowana ale jeszcze nie zindeksowana” wskazuje, że Google zna treść strony, ale uznał ją za niewystarczająco wartościową lub unikalną, by umieścić ją w wynikach wyszukiwania, co często wynika z niskiej jakości contentu (Thin Content).
- Crawl Budget (budżet indeksowania) to ograniczony zasób mocy obliczeniowej przydzielany przez Google dla każdej domeny; marnowanie go na strony niskiej jakości może skutkować problemami z indeksacją kluczowych podstron sprzedażowych.
- Kanibalizacja i duplikacja (wewnętrzna i zewnętrzna) są najczęstszymi przyczynami odrzucenia strony po zeskanowaniu, ponieważ algorytmy dążą do zachowania różnorodności w wynikach wyszukiwania i unikają indeksowania niemal identycznych zasobów.
- Content Pruning to strategia polegająca na celowym usuwaniu lub blokowaniu przed indeksacją podstron o niskiej jakości, co paradoksalnie zwiększa „zdrowie” całej domeny i przyspiesza indeksację wartościowych treści.
- Linkowanie wewnętrzne pełni rolę drogowskazu priorytetów; strony osierocone (Orphan Pages) lub słabo podlinkowane są przez algorytmy traktowane jako mało istotne, co zwiększa ryzyko ich pominięcia w indeksie.
Co oznacza status „Strona zeskanowana ale jeszcze nie zindeksowana”?
Kiedy analizujemy raporty w Google Search Console, precyzja terminologiczna jest absolutnie kluczowa. Status ten jest jednym z najbardziej frustrujących dla specjalistów SEO, ponieważ nie daje jasnej odpowiedzi „dlaczego”. Google mówi nam wprost: „Widzieliśmy to, przeczytaliśmy to, ale na ten moment nie jesteśmy zainteresowani”.
W mojej praktyce zawodowej często spotykam się z sytuacją, gdzie klienci panikują, widząc tysiące adresów w tej sekcji. Pierwszym krokiem jest zawsze uspokojenie i analiza, czy te adresy w ogóle powinny być w indeksie. Algorytmy Google stały się niezwykle wybredne. Dawniej indeksowano niemal wszystko, co napotkał robot. Obecnie, przy ogromnym przyroście treści w sieci (wspomaganym przez AI), Google musi drastycznie selekcjonować zasoby.
Decyzja o braku indeksacji po zeskanowaniu jest w istocie decyzją ekonomiczną Google. Przechowywanie danych kosztuje. Jeśli algorytm ocenia, że prawdopodobieństwo, iż użytkownik wpisze zapytanie, na które ta konkretna strona jest najlepszą odpowiedzią, jest bliskie zeru – strona nie trafia do indeksu.
Czym różni się ten status od „Strona wykryta – obecnie nie zindeksowana”?
Rozróżnienie tych dwóch statusów jest fundamentalne dla obrania właściwej ścieżki naprawczej. Błąd w diagnozie na tym etapie może kosztować miesiące nieskutecznej pracy.
- Strona wykryta – obecnie nie zindeksowana: Google wie o istnieniu strony (np. znalazł link do niej lub jest w mapie witryny), ale nie wysłał jeszcze robota, by ją pobrał. Często wynika to z przeciążenia serwera (Google boi się, że skanowanie spowolni stronę) lub po prostu z braku czasu/budżetu skanowania. Tutaj problem leży w dotarciu.
- Strona zeskanowana – obecnie nie zindeksowana: Googlebot już tam był. Pobrał HTML, przeanalizował zasoby. Decyzja o braku indeksacji jest wynikiem analizy zawartości. Tutaj problem leży w jakości lub technicznej konstrukcji treści.
To rozróżnienie zmienia wszystko. W pierwszym przypadku walczymy o to, by Google w ogóle nas odwiedził (optymalizacja szybkości, serwera). W omawianym przez nas przypadku „zeskanowana, nie zindeksowana”, walka toczy się o to, by Google polubił to, co zobaczył.
Jak działa algorytm oceny jakości podczas skanowania?
Proces oceny jest błyskawiczny i opiera się na wielu sygnałach. Gdy Googlebot pobiera stronę, następuje wstępne renderowanie (choć nie zawsze pełne wykonanie JavaScript w pierwszej fazie). W tym momencie systemy takie jak Caffeine oraz nowsze moduły odpowiedzialne za „Helpful Content” dokonują oceny.
Algorytm analizuje:
- Unikalność: Czy ten tekst występuje już w indeksie w obrębie tej domeny lub w całym internecie?
- Sygnatury wartości: Czy strona zawiera elementy charakterystyczne dla wartościowych treści (np. unikalne obrazy, dane strukturalne, odpowiednią długość tekstu, multimedia)?
- Relację z domeną: Czy temat strony pasuje do autorytetu tematycznego (Topical Authority) całego serwisu?
Jeśli strona nie przejdzie tego wstępnego sita, trafia do „poczekalni”, która często staje się cmentarzyskiem adresów URL.
Dlaczego Google nie indeksuje stron mimo ich zeskanowania?
Odpowiedź najczęściej sprowadza się do jednego słowa: jakość. Jednak pojęcie „jakości” w rozumieniu algorytmów Google jest techniczne i wielowymiarowe. Nie chodzi tu o styl literacki, ale o mierzalne wskaźniki przydatności informacji.
Czym jest Thin Content i jak wpływa na decyzje robota?
Thin Content to treści o znikomej wartości merytorycznej, które nie dostarczają użytkownikowi unikalnych informacji, często generowane automatycznie lub będące jedynie zlepkiem treści z innych źródeł.
W kontekście omawianego problemu, Thin Content jest najczęstszym winowajcą. Często obserwuję to w sklepach internetowych, które tworzą tysiące stron kategorii lub tagów bez żadnego opisu, zawierających jedynie listę kilku produktów. Dla Google taka strona jest „pusta”.
Weryfikacja Thin Content nie powinna opierać się na „wyczuciu”, ale na twardych danych.
- Stosunek treści do kodu (Text-to-HTML Ratio): Jeśli kod HTML, skrypty i style ważą 100kb, a unikalna treść to tylko dwa zdania, algorytm może uznać stronę za pustą.
- Brak unikalnych encji: Jeśli strona nie zawiera specyficznych dla tematu pojęć i faktów, a jedynie ogólniki („najlepsze produkty”, „wysoka jakość”), jest klasyfikowana jako niska jakość.
Google, analizując miliardy dokumentów, nauczył się rozpoznawać szablony. Strony typu „doorway pages” (strony przejściowe) czy automatycznie generowane wyniki wyszukiwania wewnętrznego są niemal natychmiast wrzucane do worka „zeskanowana, nie zindeksowana”.
W jaki sposób duplikacja treści blokuje indeksację?
Duplikacja to cichy zabójca widoczności. Warto zrozumieć, że Google nie nakłada „kary” za duplikację w sensie ręcznego filtra (chyba że jest to spam), ale po prostu ignoruje kopie.
Near-Duplicate Content (Treść prawie zduplikowana) to pojęcie kluczowe. Często właściciele eCommerce myślą, że jeśli zmienią nazwę produktu z „Buty Nike Czarne 40” na „Buty Nike Czarne 41”, to mają unikalną stronę. Dla algorytmu, jeśli opis, zdjęcia i układ są identyczne w 99%, jest to duplikat. Googlebot dochodzi do wniosku: „Mam już jedną taką stronę w indeksie, nie potrzebuję drugiej identycznej, różniącej się tylko cyfrą w rozmiarze”.
To samo dotyczy opisów producenta. Jeśli wklejamy opis dostarczony przez dystrybutora, który obsługuje 50 innych sklepów, nasza strona jest jedną z wielu identycznych w sieci. Dlaczego Google miałby indeksować właśnie naszą kopię, jeśli nie mamy wyższego autorytetu domeny niż konkurencja?
Czy brak intencji użytkownika wyklucza stronę z indeksu?
To subtelny, ale krytyczny aspekt. Google dąży do zaspokojenia intencji wyszukiwania (Search Intent). Jeśli tworzymy stronę, która teoretycznie jest poprawna technicznie, ale nie odpowiada na żadne realne zapytanie użytkownika, może ona zostać pominięta.

Przykład z mojej pracy: Klient stworzył setki artykułów na blogu będących de facto dziennikiem zmian w oprogramowaniu (changelog) typu „Aktualizacja v.1.2.3 – poprawiono błędy”. Treść była unikalna, ale nikt nie szukał w Google frazy „poprawiono błędy w wersji 1.2.3”. Google zeskanował te strony i uznał, że nie mają one potencjału wyszukiwawczego, więc pozostawił je jako nie zindeksowane, oszczędzając zasoby indeksu.
Jakie aspekty techniczne powodują brak indeksacji?
Nawet najlepsza treść może polec w starciu z błędną konfiguracją techniczną. Marketingowcy często skupiają się na słowach, zapominając, że pod spodem działa maszyna, która musi efektywnie poruszać się po infrastrukturze serwisu.
Jak zarządzać Crawl Budget, aby uniknąć problemów?
Crawl Budget (budżet indeksowania) to limitowana liczba żądań, jakie boty wyszukiwarki mogą wykonać w obrębie danej witryny w określonym czasie, zależna od szybkości serwera i autorytetu domeny.
Problem pojawia się, gdy marnujemy ten budżet na „śmieci”. Wyobraźmy sobie, że Googlebot ma przydział na odwiedzenie 1000 podstron dziennie w Twoim sklepie. Jeśli 800 z tych wizyt zmarnuje na skanowanie stron filtrów, sesji użytkownika, czy wersji do druku (które nie są zablokowane w robots.txt), to może zabraknąć zasobów na zeskanowanie i zindeksowanie nowych, wartościowych artykułów czy produktów.
Efekt? Nowa, świetna strona zostaje zeskanowana (bo link do niej znaleziono), ale algorytm, „zmęczony” przedzieraniem się przez setki stron niskiej jakości w obrębie domeny, decyduje się nie dodawać jej do indeksu, uznając całą sekcję serwisu za mało istotną. Optymalizacja Crawl Budget to w dużej mierze sztuka mówienia Googlebotowi „nie wchodź tutaj”, aby wymusić wejście tam, gdzie nam zależy.
Czy błędy w linkowaniu wewnętrznym odcinają podstrony od indeksu?
Linkowanie wewnętrzne to system krwionośny strony. Przekazuje nie tylko użytkowników, ale przede wszystkim PageRank (moc rankingową).
Strona, która została zeskanowana, ale nie zindeksowana, często cierpi na deficyt linków wewnętrznych. Jeśli do danego artykułu prowadzi tylko jeden link z głębokiej archiwum bloga, a do strony głównej prowadzą tysiące, to sygnał dla Google jest jasny: ta strona jest mało ważna dla właściciela witryny.
Często spotykam się z problemem tzw. Orphan Pages (stron osieroconych). Są to strony, które istnieją w mapie witryny (sitemap.xml) i dlatego Google je znalazł i zeskanował, ale nie prowadzi do nich żaden link nawigacyjny w strukturze serwisu. Dla algorytmu taka sytuacja jest podejrzeniem błędu lub starej, zapomnianej treści. Szansa na trwałą indeksację takiej strony jest minimalna.
Jak renderowanie JavaScript wpływa na widoczność treści?
Współczesne strony to często rozbudowane aplikacje webowe (SPA – Single Page Application) oparte na React, Vue czy Angular. Google radzi sobie z JavaScriptem znacznie lepiej niż kiedyś, ale proces ten nie jest idealny ani darmowy (kosztuje tzw. Render Budget).
Jeśli kluczowa treść strony jest ładowana dynamicznie przez JavaScript (Client-Side Rendering), a Googlebot podczas pierwszej wizyty zobaczy tylko pusty kontener HTML, może zaklasyfikować stronę jako pustą (Thin Content) zanim skrypt zdąży zaciągnąć tekst.
Wskazówka: Zawsze sprawdzaj, co widzi robot, wyłączając obsługę JavaScript w przeglądarce lub używając narzędzia „Sprawdź URL” w Google Search Console (zakładka „Wyświetlona strona”). Jeśli po wyłączeniu JS znika główna treść, opis produktu czy linki wewnętrzne – masz gotową odpowiedź, dlaczego strona nie jest w indeksie. Rozwiązaniem jest tutaj wdrożenie renderowania po stronie serwera (SSR) lub hydracji statycznej.
Specyfika problemu w sklepach internetowych (eCommerce)
eCommerce to środowisko, w którym problem „zeskanowana ale jeszcze nie zindeksowana” występuje na masową skalę. Wynika to z samej natury sklepów – duża liczba produktów, wariantów i dynamicznie generowanych parametrów.
Jak warianty produktów generują puste podstrony?
Większość platform sklepowych generuje osobne adresy URL dla każdego wariantu produktu (kolor, rozmiar). Przykład:
sklep.pl/buty-model-x(strona główna produktu)sklep.pl/buty-model-x?kolor=czerwonysklep.pl/buty-model-x?kolor=niebieskisklep.pl/buty-model-x?rozmiar=42
Jeśli każda z tych kombinacji jest dostępna dla robota (brak tagu noindex lub canonical wskazującego na produkt główny), Googlebot skanuje setki URLi, które mają identyczny opis i zdjęcia. W efekcie, po zeskanowaniu np. wersji „rozmiar 42”, uznaje ją za duplikat i nie indeksuje. Problem pojawia się, gdy przez bałagan w linkowaniu Google zindeksuje wariant, a odrzuci stronę główną produktu.
Rozwiązaniem jest rygorystyczne stosowanie tagów Canonical. Każdy wariant powinien wskazywać na główny adres produktu jako kanoniczny. Wtedy Google skanuje warianty, widzi instrukcję i „skleja” moc rankingową w jednym adresie, zamiast raportować błędy indeksacji.
Co zrobić ze stronami filtrów i sortowania?
To klasyczny dylemat SEO. Czy indeksować strony wyników filtrowania, np. „Czerwone sukienki letnie do 200 zł”? Z jednej strony to świetne frazy long-tail (długi ogon). Z drugiej – jeśli pozwolimy indeksować każdą kombinację filtrów, stworzymy miliony podstron typu Thin Content.
Najlepszą praktyką jest strategia hybrydowa:
- Standardowe filtry: Blokujemy przed indeksacją (meta robots
noindexlub blokada wrobots.txt) kombinacje wielu filtrów oraz sortowanie (po cenie, po nazwie). Sortowanie zmienia tylko kolejność produktów, nie treść – to klasyczny duplikat. - Kluczowe landing page: Dla popularnych zapytań tworzymy dedykowane kategorie lub statyczne strony (np. „Sukienki na wesele”), które mają unikalny opis i są trwale w strukturze menu.
Jeśli zostawisz filtry „samopas”, Google Search Console szybko zapełni się tysiącami URLi ze statusem „zeskanowana ale nie zindeksowana”, co może wpłynąć negatywnie na ocenę całej domeny.
Jak zarządzać produktami niedostępnymi (Out of Stock)?
Produkty, które zniknęły z oferty, są problematyczne. Jeśli produkt jest „chwilowo niedostępny”, strona powinna działać (kod 200), ale zawierać jasną informację dla klienta i możliwość zapisu na powiadomienie.
Jeśli jednak produkt został trwale wycofany, a strona nadal zwraca kod 200 i wyświetla pusty szablon z napisem „produkt niedostępny”, staje się ona stroną Soft 404 lub Thin Content. Google po zeskanowaniu takiej strony usunie ją z indeksu (lub nie doda nowej).
Najlepsze podejście:
- Chwilowy brak: Zostaw w indeksie, zasugeruj podobne produkty.
- Trwały brak: Ustaw przekierowanie 301 na najbliższą kategorię lub produkt zamienny. Jeśli nie ma odpowiednika – ustaw kod 410 (Gone), który daje jasny sygnał robotowi: „zapomnij o tym adresie na zawsze”.
Jak krok po kroku zdiagnozować i naprawić błędy w Google Search Console?
Praca z GSC wymaga analitycznego podejścia. Nie wystarczy kliknąć „Poproś o zindeksowanie” – to działanie doraźne, które przy problemach strukturalnych nie przyniesie efektu.
Jak analizować raport „Indeksowanie stron”?
Wejdź w zakładkę Indeksowanie -> Strony. Znajdziesz tam listę powodów, dla których strony nie są w indeksie. Kliknij w wiersz „Strona zeskanowana, ale jeszcze nie zindeksowana”.
Oto schemat działania:
- Eksport danych: Pobierz listę przykładowych URLi (Google pokazuje tylko 1000 przykładów, nawet jeśli błędów jest więcej).
- Segregacja: Podziel adresy na grupy (szablony). Czy to głównie produkty? Artykuły na blogu? Czy może dziwne parametry w URL (np.
?session_id=)? - Weryfikacja przydatności: Zadaj sobie pytanie: „Czy chcę, aby ten konkretny URL był w wynikach wyszukiwania?”.
- Jeśli NIE: Problem rozwiązany. Google zrobił dobrą robotę. Możesz dodać tag
noindexlub zablokować wrobots.txt, aby te błędy zniknęły z raportu w przyszłości i nie marnowały zasobów. - Jeśli TAK: Przejdź do analizy jakościowej. Sprawdź, czy treść jest unikalna, czy strona ma linki wewnętrzne.
- Jeśli NIE: Problem rozwiązany. Google zrobił dobrą robotę. Możesz dodać tag
W jaki sposób korzystać z narzędzia sprawdzania adresu URL?
To najpotężniejsze narzędzie diagnostyczne w GSC. Wklej problematyczny adres w górny pasek wyszukiwania.
Kluczowe elementy do sprawdzenia:
- Test wersji opublikowanej: Kliknij „Sprawdź wersję opublikowaną”. To wymusi na Googlebocie wizytę w czasie rzeczywistym.
- Zrzut ekranu: Zobacz, jak Google „widzi” stronę. Czy treść jest widoczna? Czy nie jest zasłonięta przez pop-up lub błąd CSS?
- Kod HTML: Sprawdź wyrenderowany kod HTML. Wyszukaj (Ctrl+F) fragment unikalnego tekstu ze strony. Jeśli go nie ma w kodzie – masz problem z renderingiem JavaScript.
- Data ostatniego skanowania: Jeśli data jest bardzo stara, może to oznaczać, że Google rzadko tu zagląda z powodu słabego linkowania wewnętrznego.
Kiedy warto zastosować Content Pruning?
Czasami, aby urosnąć, trzeba coś odciąć. W ogrodnictwie przycinanie (pruning) martwych gałęzi wzmacnia drzewo. W SEO działa to identycznie.
Na czym polega strategia usuwania treści?
Content Pruning to proces identyfikacji i usuwania z indeksu podstron, które nie generują ruchu, nie mają linków zwrotnych i nie realizują celów biznesowych.
Jeśli Twoja strona ma 10 000 podstron w indeksie, ale tylko 500 z nich generuje 95% ruchu organicznego, to pozostałe 9500 podstron może obciążać „Quality Score” całej domeny. Google patrzy na średnią jakość. Duża liczba stron ze statusem „zeskanowana ale nie zindeksowana” może być sygnałem, że warto przeprowadzić czystki.
Polega to na:
- Ustawieniu
noindexna stronach tagów, archiwów dat, profili użytkowników. - Konsolidacji (łączeniu) kilku słabych artykułów w jeden potężny poradnik (i ustawieniu przekierowań 301).
- Fizycznym usunięciu starych, nieaktualnych produktów (kod 410).
Jakie są ryzyka i korzyści z deindeksacji?
Głównym ryzykiem jest przypadkowe usunięcie stron, które wspomagają inne (np. poprzez linkowanie wewnętrzne) lub generują rzadkie konwersje. Dlatego pruning wymaga analizy danych z minimum 12 miesięcy (Google Analytics + GSC).
Korzyści są jednak często spektakularne. Po usunięciu balastu (zablokowaniu indeksacji tysięcy stron „zombie”), Crawl Budget koncentruje się na najważniejszych URLach. Często obserwuję, że po takiej operacji status „zeskanowana ale nie zindeksowana” znika dla kluczowych podstron, ponieważ średnia ocena jakości domeny rośnie, a roboty mają mniej pracy do wykonania.
Jak zapobiegać problemom z indeksacją?
Walka ze statusem „Strona zeskanowana ale jeszcze nie zindeksowana” to proces ciągły. Google stale podnosi poprzeczkę jakości. Aby zabezpieczyć swój serwis na przyszłość, należy wdrożyć procedury kontrolne.
Po pierwsze, dbaj o architekturę informacji. Płaska struktura, w której każda ważna podstrona jest dostępna w maksymalnie 3 kliknięciach od strony głównej, drastycznie zwiększa szansę na szybką indeksację. Stosuj mapy witryny (Sitemap.xml) tylko dla stron, na których indeksacji realnie Ci zależy – nie wrzucaj tam śmieci.
Po drugie, inwestuj w unikalność. W dobie AI, content generyczny traci na wartości. Wygrywają treści zawierające unikalne dane, własne badania, opinie eksperckie i „ludzki pierwiastek”. Jeśli prowadzisz sklep, nie kopiuj opisów. Jeśli nie stać Cię na unikalne opisy dla 10 000 produktów, zacznij od 100 najlepiej sprzedających się i zablokuj indeksację tych mniej ważnych, dopóki ich nie poprawisz.
Pamiętaj, indeksacja to nie prawo – to przywilej. Otrzymują go strony, które udowodnią swoją wartość dla ekosystemu Google.




