Crawling

Co je robots.txt

Jednoduchý textový soubor, který říká vyhledávačům, kam na webu mohou nebo nemohou chodit.

Silně doporučujeme mít tuto kontrolu v Articlero zelenou. Bez správného nastavení nemusí Articlero doručit výsledky, které od obsahu čekáte.

Jednoduše

Představte si robots.txt jako ceduli u vchodu do webu. Google přijde, přečte si ji a zjistí, jestli smí procházet celý web, nebo jestli má některé části vynechat. Není to bezpečnostní zámek a negarantuje skrytí stránky z Googlu. Je to instrukce pro slušné crawlery.

Proč na tom záleží pro Articlero

Articlero vám může generovat dobré články, ale pokud robots.txt omylem blokuje celý web nebo důležité sekce s články, Google se k nim nemusí dostat. Výsledek pak může být slabší, než čekáte, protože obsah existuje, ale vyhledávač ho neumí normálně projít.

Co má být správně

Soubor existuje na adrese /robots.txt.
Neblokuje celý web pravidlem User-agent: * a Disallow: /.
Obsahuje odkaz Sitemap: https://vas-web.cz/sitemap.xml.
Po změně projde audit v přehledu projektu.

Jak to nastavit

1Otevřete administraci webu, hosting nebo CMS.
2Najděte nastavení robots.txt. U některých CMS ho generuje SEO plugin.
3Povolte procházení důležitých stránek a článků.
4Přidejte řádek Sitemap s plnou URL vaší sitemapy.
5V Articlero otevřete Přehled projektu a spusťte kontrolu znovu.

Časté chyby

Disallow: / pro všechny crawlery na produkčním webu.
Robots.txt zůstane v režimu stagingu i po spuštění webu.
Sitemap je na webu, ale není uvedená v robots.txt.
Blokují se CSS nebo JavaScript soubory, které Google potřebuje pro pochopení stránky.

Co kontroluje Articlero

Audit kontroluje, jestli robots.txt existuje, jestli obsahuje Sitemap a jestli pravděpodobně neblokuje celý web.

Otevřít dashboard

Jednoduchý příklad

User-agent: *
Allow: /

Sitemap: https://vas-web.cz/sitemap.xml

Zdroje

Google Search Central: robots.txt Google: create robots.txt