Crawling

Co je robots.txt

Jednoduchý textový soubor, který říká vyhledávačům, kam na webu mohou nebo nemohou chodit.

Silně doporučujeme mít tuto kontrolu v Articlero zelenou. Bez správného nastavení nemusí Articlero doručit výsledky, které od obsahu čekáte.

Jednoduše

Představte si robots.txt jako ceduli u vchodu do webu. Google přijde, přečte si ji a zjistí, jestli smí procházet celý web, nebo jestli má některé části vynechat. Není to bezpečnostní zámek a negarantuje skrytí stránky z Googlu. Je to instrukce pro slušné crawlery.

Proč na tom záleží pro Articlero

Articlero vám může generovat dobré články, ale pokud robots.txt omylem blokuje celý web nebo důležité sekce s články, Google se k nim nemusí dostat. Výsledek pak může být slabší, než čekáte, protože obsah existuje, ale vyhledávač ho neumí normálně projít.

Co má být správně

  • Soubor existuje na adrese /robots.txt.
  • Neblokuje celý web pravidlem User-agent: * a Disallow: /.
  • Obsahuje odkaz Sitemap: https://vas-web.cz/sitemap.xml.
  • Po změně projde audit v přehledu projektu.

Jak to nastavit

  1. 1Otevřete administraci webu, hosting nebo CMS.
  2. 2Najděte nastavení robots.txt. U některých CMS ho generuje SEO plugin.
  3. 3Povolte procházení důležitých stránek a článků.
  4. 4Přidejte řádek Sitemap s plnou URL vaší sitemapy.
  5. 5V Articlero otevřete Přehled projektu a spusťte kontrolu znovu.

Časté chyby

  • Disallow: / pro všechny crawlery na produkčním webu.
  • Robots.txt zůstane v režimu stagingu i po spuštění webu.
  • Sitemap je na webu, ale není uvedená v robots.txt.
  • Blokují se CSS nebo JavaScript soubory, které Google potřebuje pro pochopení stránky.

Co kontroluje Articlero

Audit kontroluje, jestli robots.txt existuje, jestli obsahuje Sitemap a jestli pravděpodobně neblokuje celý web.

Otevřít dashboard

Jednoduchý příklad

User-agent: *
Allow: /

Sitemap: https://vas-web.cz/sitemap.xml

Zdroje