Die richtige robots.txt

Datei robots.txt — dies ist die wichtigste Datei beschreibt Regeln für die Verarbeitung von Seiten der Suchmaschinen-Roboter. Diese Datei brauchen Sie für die Angabe der Haupt-name der Website, Sitemap (sitemap.xml), offene und geschlossene Bereiche der Website.
Datei robots.txt enthält die folgenden Richtlinien:

  • User-agent — Richtlinie, die angibt, für welchen Roboter die folgenden Regeln
    • * - alle Roboter
    • Yandex — Haupt-Roboter Yandex
    • Googlebot — Haupt-Googlebot
    • StackRambler — crawler Rambler
    • Aport — crawler Aport
    • Slurp — Roboter-Yahoo
    • MSNBot — Roboter MSN
  • Disallow — Richtlinie Verbot Teile der Website
  • Allow — Richtlinie Berechtigungen Teile der Website
  • Host — Richtlinie die Angabe der Haupt-name der Website
  • Sitemap— Richtlinie Hinweise Sitemap (sitemap.xml)
  • Crawl-delay — Richtlinie, die angibt, wie viele Sekunden kann der Roboter auf eine Antwort warten von der Webseite (ist auf stark ausgelasteten Ressourcen, damit der Roboter nicht gedacht Webseite nicht verfügbar)
  • Clean-param — Richtlinie beschreibt dynamische Parameter hat keinen Einfluss auf den Inhalt der Website

Помимо директив в robots.txt используются спец символы:

  • * - любай (darunter auch leere) Folge von Zeichen
  • $ — ist eine Einschränkung der Regeln

Für die Zusammenstellung robots.txt werden die oben genannten Richtlinien und Speth-Zeichen nach folgendem Prinzip:

  • Wird der name des Roboters für die geschrieben, die Liste der Regeln
    (User-agent: * - Regel für alle Roboter)
  • Geschrieben wird die Liste der Verbotenen Bereiche der Website für den angegebenen Roboter
    ( Disallow: / Ban Indizierung der gesamten Website)
  • Geschrieben wird die Liste der erlaubten Bereiche der Website
    (Allow: /home/ — zugelassen Abschnitt home)
  • Gibt den Namen der Website
    (Host: crazysquirrel.ru — der name der Website crazysquirrel.ru)
  • Wird der absolute Pfad zu der Datei sitemap.xml
    (Sitemap: https:// crazysquirrel.ru/sitemap.xml)

Wenn auf der Website keine Verbotenen Partitionen, dann robots.txt sollte mindestens 4 Zeilen:

User-Agent: *
Allow: /
Host: crazysquirrel.ru
Sitemap: https://crazysquirrel.ru/sitemap.xml

Überprüfen robots.txt und wie wirkt er sich auf die Indexierung der Seite können Sie mit Hilfe der Werkzeuge Yandex

Zu sehen und Kommentare zu hinterlassen