ArticleroBot
Načítáme webové stránky, abychom nastavili a provozovali projekty našich uživatelů, typicky vlastníků daných webů. Na této stránce najdete vše, co potřebujete vědět.
Jak nás poznáte
V přístupových logách vašeho serveru se představujeme tímto řetězcem User-Agent:
ArticleroBot/1.0 (+https://www.articlero.com/crawler)
Co a kdy načítáme
ArticleroBot není klasický crawler. Web neprochází sám od sebe, nesleduje odkazy ze stránky na stránku a neindexuje obsah. Konkrétní stránku načte jen v rámci nastavení nebo provozu projektu uživatele Articlero.
Úvodní stránka webu
Při ověření vhodnosti projektu a při zakládání projektu, abychom pochopili, čemu se web věnuje.
robots.txt a sitemap.xml
Při hledání mapy webu, abychom věděli, jaké články už na webu existují.
llms.txt
Při kontrole nastavení projektu, abychom ověřili, zda je soubor dostupný.
Stránky, na které můžeme odkazovat
Při přípravě obsahu uživatele, abychom ověřili, že je stránka dostupná, než na ni odkážeme.
Jak se chováme
- Cílené požadavky GET na konkrétní stránky, žádné plošné procházení ani sklízení internetu.
- Časový limit do 15 sekund na požadavek a stropy velikosti odpovědi v jednotkách MB.
- Žádné cookies, žádné spouštění JavaScriptu, žádné pokusy o přihlášení.
- Načtený obsah slouží pouze k provozu daného projektu. Nearchivujeme ho, nezveřejňujeme a nepoužíváme k trénování modelů.
Jak nás zablokovat
Pokud si nepřejete, abychom váš web načítali, přidejte do souboru robots.txt:
User-agent: ArticleroBot Disallow: /
Část našich požadavků jsou jednorázová načtení vázaná na konkrétní akci uživatele, podobně jako náhledy odkazů v chatovacích aplikacích, a mohou proběhnout i přes pravidla v robots.txt. Opakované automatické přístupy blokaci respektují. Pokud chcete svůj web vyloučit úplně, napište nám a postaráme se o to.
Kontakt
Otázky k načítání, hlášení problémů nebo žádosti o vyloučení webu vyřídíte přes naši kontaktní stránku
