Articlero
Vyzkoušet zdarma

ArticleroBot

Načítáme webové stránky, abychom nastavili a provozovali projekty našich uživatelů, typicky vlastníků daných webů. Na této stránce najdete vše, co potřebujete vědět.

Jak nás poznáte

V přístupových logách vašeho serveru se představujeme tímto řetězcem User-Agent:

ArticleroBot/1.0 (+https://www.articlero.com/crawler)

Co a kdy načítáme

ArticleroBot není klasický crawler. Web neprochází sám od sebe, nesleduje odkazy ze stránky na stránku a neindexuje obsah. Konkrétní stránku načte jen v rámci nastavení nebo provozu projektu uživatele Articlero.

  • Úvodní stránka webu

    Při ověření vhodnosti projektu a při zakládání projektu, abychom pochopili, čemu se web věnuje.

  • robots.txt a sitemap.xml

    Při hledání mapy webu, abychom věděli, jaké články už na webu existují.

  • llms.txt

    Při kontrole nastavení projektu, abychom ověřili, zda je soubor dostupný.

  • Stránky, na které můžeme odkazovat

    Při přípravě obsahu uživatele, abychom ověřili, že je stránka dostupná, než na ni odkážeme.

Jak se chováme

  • Cílené požadavky GET na konkrétní stránky, žádné plošné procházení ani sklízení internetu.
  • Časový limit do 15 sekund na požadavek a stropy velikosti odpovědi v jednotkách MB.
  • Žádné cookies, žádné spouštění JavaScriptu, žádné pokusy o přihlášení.
  • Načtený obsah slouží pouze k provozu daného projektu. Nearchivujeme ho, nezveřejňujeme a nepoužíváme k trénování modelů.

Jak nás zablokovat

Pokud si nepřejete, abychom váš web načítali, přidejte do souboru robots.txt:

User-agent: ArticleroBot
Disallow: /

Část našich požadavků jsou jednorázová načtení vázaná na konkrétní akci uživatele, podobně jako náhledy odkazů v chatovacích aplikacích, a mohou proběhnout i přes pravidla v robots.txt. Opakované automatické přístupy blokaci respektují. Pokud chcete svůj web vyloučit úplně, napište nám a postaráme se o to.

Kontakt

Otázky k načítání, hlášení problémů nebo žádosti o vyloučení webu vyřídíte přes naši kontaktní stránku