Jak zjistit počet neindexovaných stránek webu – analýza indexace

Analýza indexace

Můžeme si říkat, jak je ten obsahový marketing super, jak si kdo vyhraje se vstupní stránkou a jak božské odkazy získáme. Stejně vždycky skončíme u toho, že bez toho, aby stránky byly správně zaindexovány, všechny tyhle sexy věci jsou zcela k ničemu. Když zjistíte, že indexace probíhá špatně, potřebujete mít štěstí, když náhodným klikáním po webu odhalíte vzor, které stránky nejsou zaindexované. Nebo můžete provést koncepční analýzu indexace. A tu vás chci naučit v následujícím článku. Budete potřebovat Excel (nebo alternativy), OpenRefine a Marketing Miner.

Úvodem – jak zjišťovat indexaci

Pokud potřebujete ověřit indexaci jednotlivé URL, jediný správný postup je operátor info:, který podporují oba pro nás důležité vyhledávače (Google i Seznam). U vyhledávače Yandex a na Bingu se stejně používá operátor url:, na DuckDuckGo stačí URL dát do uvozovek a Baidu kombinací operátoru site: a inurl:.

Použití operátoru info:, který funguje na Seznam i Google, je jednoduché, stačí do vyhledávače napsat info:https://www.testovanadomena.cz/testovana-url/. Tedy například u http://www.pavelungr.cz/skoleni/:

Screenshot testu indexace URL na Seznam.cz
Test indexace URL na Seznam.cz
Screenshot testu indexace URL na Google
Screenshot testu indexace URL na Google

Jak zjistit počet indexovaných stránek domény

Roky tady s námi je také operátor site:. Bohužel roky s námi je i vize, že zobrazuje přesný počet stránek, které má vyhledávač v indexu pro danou doménu. To není pravda. Zobrazuje odhad vyhledávače kolik asi, zhruba, plus/mínus, od oka, by tam asi mohlo být URL. Může se to dost lišit, lidé z Google to číslo označují jako „rough approximation„. Přesnější čísla se dozvíte u Seznamu v  Seznam Webmaster Tools:

Seznam Webmaster - indexace
Indexace v Seznam Webmaster

a v Google Search Console: Index Google > Stav indexu. Můžete to vypadat třeba takto:

Screenshot indexace v Search Console
Indexace v Search Console

Seznam.cz zobrazuje výsledky bez náhledů stránky a tam chybí u operátoru site: počet URL vůbec. Stále však existuje řešení.

Kdy potřebujeme analýzu indexace?

  1. Kdykoliv zjistíme, že se nám něco neindexuje a potřebujeme odhalit všechny vzory neindexovaných stránek.
  2. Výsledky SEO nejdou ideální a máme podezření na nedostatečnou indexaci.
  3. Počty zaindexovaných stránek se mezi vyhledávači hodně liší – třeba o řád.

Krok 1 – seznam URL

Jak sehnat všechny možné URL webu? Není to tak snadné, jak se zdá. Ani vývojář nemá vždy přehled nad všemi variantami URL, které jeho CMS generuje. Proto musíme kombinovat různé zdroje:

  1. Export z CMS – získává se tak, že musíte vašeho vývojáře poprosit (nebo dokopat) k exportu. Neměl by to pro něj být problém. Ale počítejte s tím, že nepokryje vše.
  2. Sitemapa/Sitemap index – zpravidla by měla být umístěna v kořenové adresáři domény na adrese /sitemap.xml nebo by na ni měl vést odkaz z robots.txt. Pokud ani jedno nefunguje, zkuste se podívat do Search Console: Procházení > Soubory Sitemap. Pokud nejsou ani tam, nezbývá než se optat vývojáře, kam ji ukryl. Bohužel se může stát, že sitemap neexistuje. U menších webů je to přirozené, u větších spíše chyba.
    Pokud z formátu XML chcete získat jednoduchý seznam URL, máte 2 možnosti.

    1. Nahrát sitemapu do OpenRefinu, nechat ji OpenRefine rozparsovat a pak exportovat.
    2. Nahrát sitemapu do Excelu
  3. Crawl celého webu z Screaming Frogu nebo alternativ jako je Xenu, SiteBulb, SEO toolkit aj.
  4. Export z Ahrefs nebo Majestic SEO.
    Export z Ahrefs

    Export z Majestic SEO
  5. Export z PPC systémů
    Export z Skliku

    Export z AdWords
  6. Export vstupních URL z Google Analytics. Období, které nás zajímá bude alespoň rok – ideálně více (celé období měření). Pokud má ale web velkou návštěvnost, tak se vám při exportu prohlížeč zasekne, protože tak velké množství dat neupočítá. Existuje ale elegantní řešení a to extraktory v Marketing Mineru.

    Export z Google Analytics
    Export z Google Analytics
  7. Export vstupních stránek z Search Console. U Search Console je to jednoduché, období dáte maximální a to jsou 3 měsíce.

    Export z Search Console
    Export z Search Console

Krok 2 – sloučení dat pro testování

Nyní jsme v situaci, kdy máme hodně exportních souborů z různých zdrojů, které obsahují hodně duplicitních stránek. Nyní je třeba vytvořit jeden soubor, kde v prvním sloupečku budeme mít URL a v druhém sloupečku zdroj. V případě Google Analytics i kanál. Může to vypadat třeba takto.

Data a zdroje

Nyní potřebujeme odstranit duplicity, a přesto si ponechat informace, z jakého zdroje jsme URL získali. Pro to použijeme Open Refine:

3. krok – zjištění indexace URL v Marketing Mineru

Nejlepší nástroj pro zjištění indexace je Marketing Miner a jeho URL miner s minery Fulltext URL Checker a URL indexability. První z nich vám zjistí, zda je URL indexována na obou vyhledávačích a zda se  v SERPu objevuje testovaná URL, nebo nějaká její kanonická verze. URL indexability vám prozradí, zda URL vůbec může být indexovaná a pokud ne, jaké překážky tomu brání. Ještě před testem doporučuji z testu vyřadít všechny možné UTM a jiné trackovací parametry, které vám jsou známé, abyste v Marketing Mineru neutratili majlant 🙂 Pro střední e-shop se totiž můžete dostat na cca 100 000 URL pro kontrolu. Nastavení URL mineru by tedy vypadalo takto.

Kontrola indexace v Marketing Mineru

Výstup pak může vypadat takto:

Report indexace v Marketing Mineru

To samé můžeme vidět v Excelu:

Report indexace z Marketing Mineru v Excel

Pro ty kteří nejsou s tímto reportem seznámeni, trochu objasnění jednotlivých sloupečků:

  • Input – URL kterou testujeme,
  • Indexed by – je URL indexovaná vyhledávačem? Nabývá hodnot yes a no,
  • URL in result – jaká URL se reálně zobrazuje ve výsledcích vyhledávání, někdy kvůli kanonizaci se zobrazuje jiná URL, než jsme testovali,
  • Same as input – zobrazuje se v SERPu stejná URL jako na vstupu – nabývá hodno yes, no,
  • Indexability status – je testovaná URL vůbec indexovatelná? Pokud je obsahem něco jiného než Indexable, máme problém. Další hodnoty jsou redirected, canonised, error 404, error 503, … atp. Prostě všechny další možné hodnoty, kvůli kterým URL nemůže být indexovaná.
  • Další sloupečky už jen řeší konkrétní stavy Indexability status jako: Link canonical, header canonical, robots.txt, x-robots, meta robots, rel=next, prev.

4. krok – Napárování informací z logů

Další věc, která vám může pomoci ve výsledné analýze jsou informace z logů, které si musíte v Open Refine napárovat. Jak na to:

  1. Vytáhněte si z logů informace o poslední návštěvě robotů (GoogleBota a SeznamBota) nebo požádejte vašeho vývojáře, aby to udělal za vás.
  2. Výsledkem by měl být soubor, kde bude mít na jednom řádku URL a k němu 2 sloupečky datumem (jeden pro Seznam a druhý pro Google) nebo nic v případě, že URL roboti nenavštěvují.
  3. Výstup z Marketing Mineru v předchozím kroku si nahrajte do Open Refinu, stejně jako soubor s informacemi z logů. Tedy budete mít 2  projekty – jeden s daty z Marketing Mineru a druhý  s informacemi o návštěvě robota z logů.
  4. Pomocí rozšíření VIB-bits pro Open Refine si do projektu s daty z Marketing Mineru na základě URL napárujte informace o návštěvě robotů.
  5. Výsledek pak exportujete a upravte v Excelu. Může to vypadat třeba nějak takhle:

    Finální výstup analýzy indexace

5. krok – Vyhodnocování výstupu

Nyní již stačí si výsledky rozdělit podle pravděpodobných příčin a začít je ověřovat a napravovat:

  1. URL není indexovatelná – buď je to chyba a stačí odstranit příčinu neindexovatelnosti ,nebo pokud je to úmysl ,ponechat stávající stav (třeba v případě úmyslné kanonizace),
  2. URL není indexovaná a my to tak chceme – ponecháme aktuální stav, a pokud je to s ohledem na crawl budget třeba, zakážeme ji v robots.txt k procházení,
  3. URL není indexovaná a podle logu na ni roboti nechodí – patrně špatná struktura webu a špatné interní prolinkování > robot se na stránky nedostane, zlepšete strukturu a interní prolinkování,
  4. URL není indexovaná a robot tam chodí – patrně je problém v nekvalitním obsahu, nejčastěji v duplicitě nebo v technickém řešení (robot přijde na URL ale nemá důvod ji indexovat, pravděpodobně proto, že nevidí nic, co by dávalo smysl indexovat),
  5. URL je indexovaná – není co řešit 🙂

Samozřejmě, největší podíl práce nyní přichází. Musíme zjistit, které URL mají a nemají být indexované, upravit obsah a interní prolinkování a opravit technické problémy. Ale základ, že víme, kde jsou problémy a jakého typu, je nyní za námi.

Budu rád, za vaše komentáře i za sdílení tohoto návodu. Snad vám pomůže. Pokud byste si na celou analýzu netroufali, klidně mi napište na jsem@pavelungr.cz, rád vám s ní pomůžu.

Summary
Jak zjistit počet neindexovaných stránek webu - analýza indexac
Article Name
Jak zjistit počet neindexovaných stránek webu - analýza indexac
Description
Informace o indexaci stránek je důležitá část SEO. V mém článku najdete návod jak analýzu indexace udělat sami a jak indexaci ovládnout.
Author
SEOloger s.r.o.
3991 zhlédnutí (celkově) 1 zhlédnutí (dnes)
Sdílením buduješ SEO!Share on Facebook0Tweet about this on TwitterShare on Google+0Share on LinkedIn16Buffer this page
Pavel Ungr

Věnuji se SEO již 13 let od roku 2004. Z Et netery jsem nastoupil do Ataxa a následně do H1.cz. Od roku 2009 pracuji jako profesionální SEO konzultant a od roku 2013 jsem na volné noze. Vedu SEO školení a pravidelně publikuji zejména o internetovém marketingu a přednáším.Baví mě SEO experimenty a propaguji SEO jako tvorbu zajímavého a kvalitního obsahového webu který je primárně prospěšný pro uživatele a technicky přístupný.. Krom SEO se aktivně zajímá o UX, obsahový marketing, sociální sítě a jejich využití z pohledu online marketingu.

1 komentář

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

CommentLuv badge