Datei robots.txt — dies ist die wichtigste Datei beschreibt Regeln für die Verarbeitung von Seiten der Suchmaschinen-Roboter. Diese Datei brauchen Sie für die Angabe der Haupt-name der Website, Sitemap (sitemap.xml), offene und geschlossene Bereiche der Website.
Datei robots.txt enthält die folgenden Richtlinien:
- User-agent — Richtlinie, die angibt, für welchen Roboter die folgenden Regeln
- * - alle Roboter
- Yandex — Haupt-Roboter Yandex
- Googlebot — Haupt-Googlebot
- StackRambler — crawler Rambler
- Aport — crawler Aport
- Slurp — Roboter-Yahoo
- MSNBot — Roboter MSN
- Disallow — Richtlinie Verbot Teile der Website
- Allow — Richtlinie Berechtigungen Teile der Website
- Host — Richtlinie die Angabe der Haupt-name der Website
- Sitemap— Richtlinie Hinweise Sitemap (sitemap.xml)
- Crawl-delay — Richtlinie, die angibt, wie viele Sekunden kann der Roboter auf eine Antwort warten von der Webseite (ist auf stark ausgelasteten Ressourcen, damit der Roboter nicht gedacht Webseite nicht verfügbar)
- Clean-param — Richtlinie beschreibt dynamische Parameter hat keinen Einfluss auf den Inhalt der Website
Помимо директив в robots.txt используются спец символы:
- * - любай (darunter auch leere) Folge von Zeichen
- $ — ist eine Einschränkung der Regeln
Für die Zusammenstellung robots.txt werden die oben genannten Richtlinien und Speth-Zeichen nach folgendem Prinzip:
- Wird der name des Roboters für die geschrieben, die Liste der Regeln
(User-agent: * - Regel für alle Roboter) - Geschrieben wird die Liste der Verbotenen Bereiche der Website für den angegebenen Roboter
( Disallow: / Ban Indizierung der gesamten Website) - Geschrieben wird die Liste der erlaubten Bereiche der Website
(Allow: /home/ — zugelassen Abschnitt home) - Gibt den Namen der Website
(Host: crazysquirrel.ru — der name der Website crazysquirrel.ru) - Wird der absolute Pfad zu der Datei sitemap.xml
(Sitemap: https:// crazysquirrel.ru/sitemap.xml)
Wenn auf der Website keine Verbotenen Partitionen, dann robots.txt sollte mindestens 4 Zeilen:
User-Agent: *
Allow: /
Host: crazysquirrel.ru
Sitemap: https://crazysquirrel.ru/sitemap.xml
Überprüfen robots.txt und wie wirkt er sich auf die Indexierung der Seite können Sie mit Hilfe der Werkzeuge Yandex