Robots.txt-Datei – Was ist das? Wie benutzt man es?

Written by thorsten.paetzold

Alle | SEO

24. Mai 2020

Robots.txt-Datei – Was ist das? Wie benutzt man es?

Kurz gesagt, eine  Robots.txt-Datei steuert, wie Suchmaschinen auf Ihre Website zugreifen.

Diese Textdatei enthält “Anweisungen”, die Suchmaschinen vorschreiben, welche Seiten den Zugriff auf Suchmaschinen zulassen und welche Seiten den Zugriff verbieten.

Das Hinzufügen der falschen Anweisungen kann sich negativ auf Ihr Ranking auswirken, da Suchmaschinen daran gehindert werden können, Seiten (oder Ihre gesamte Website) zu crawlen.

Was sind “Roboter” (in Bezug auf SEO)?

Roboter sind Anwendungen , die Ihre Webseiten durchsuchen und dabei alle Informationen indexieren .

In Bezug auf die Datei Robots.txt werden diese Roboter als Benutzeragenten bezeichnet .

Weitere Bezeichnungen für Crawler sind:

  • Spider
  • Bots
  • Webcrawler

 

Dies sind nicht die offiziellen User-Agent-Namen der Suchmaschinen-Crawler. Mit anderen Worten, Sie würden einen “Crawler” nicht “sperren”, Sie müssten den offiziellen Namen der Suchmaschine erhalten (der Google-Crawler heißt “Googlebot”).

boohya-marketing-blog-robots_txt

Diese Bots werden auf verschiedene Weise beeinflusst, einschließlich des von Ihnen erstellten Inhalts und der Links, die auf Ihre Website verweisen .

Ihre Robots.txt-Datei ist ein Mittel, um direkt mit Suchmaschinen-Bots zu sprechen und ihnen klare Anweisungen zu geben, welche Teile Ihrer Website gecrawlt (oder nicht gecrawlt) werden sollen.

Wie verwende ich die Robots.txt-Datei?

Sie müssen die „Syntax“ verstehen, in der Sie Ihre Robots.txt-Datei erstellen.

1. Definieren Sie den User-Agent

Geben Sie den Namen des Roboters an, auf den Sie sich beziehen (z. B. Google, Yahoo usw.). Auch hier sollten Sie sich auf die vollständige Liste der Benutzeragenten beziehen, um Hilfe zu erhalten.

2. Nicht zulassen

Wenn Sie den Zugriff auf Seiten oder einen Abschnitt Ihrer Website blockieren möchten, geben Sie hier den URL-Pfad an.

3. Zulassen

Wenn Sie einen URL-Pfad innerhalb eines blockierten übergeordneten Elements direkt entsperren möchten, geben Sie diesen URL-Unterverzeichnispfad hier ein.

boohya-marketing-blog-robots_wikipedia

Kurz gesagt, Sie können robots.txt verwenden, um diesen Crawlern mitzuteilen: “Indizieren Sie diese Seiten, aber indizieren Sie diese anderen nicht.”

 

Warum die Robots.txt so wichtig ist

Es mag kontraintuitiv erscheinen, Seiten von Suchmaschinen zu blockieren. Dafür gibt es eine Reihe von Gründen und Beispielen:

 

1. Blockieren vertraulicher Informationen

Verzeichnisse sind ein gutes Beispiel.

Sie möchten wahrscheinlich diejenigen ausblenden, die vertrauliche Daten enthalten können, wie:

  • /Wagen/
  • / cgi-bin /
  • / scripts /
  • / wp-admin /

 

2. Blockieren von Seiten mit geringer Qualität

Google hat mehrfach erklärt, dass es wichtig ist, Ihre Website von Seiten mit geringer Qualität fernzuhalten. Wenn Sie viel Müll auf Ihrer Website haben, kann dies die Leistung beeinträchtigen.

 

3. Blockieren von doppeltem Inhalt

Möglicherweise möchten Sie Seiten ausschließen, die doppelten Inhalt enthalten. Wenn Sie beispielsweise “Druckversionen” einiger Seiten anbieten, möchten Sie nicht, dass Google doppelte Versionen indiziert, da doppelte Inhalte Ihre Platzierungen beeinträchtigen könnten.

Beachten Sie jedoch, dass Benutzer diese Seiten weiterhin besuchen. Wenn die Informationen also der Typ sind, den andere nicht sehen sollen, müssen Sie den Kennwortschutz verwenden, um sie zu schützen.

Dies liegt daran, dass es wahrscheinlich einige Seiten gibt, die vertrauliche Informationen enthalten, die Sie auf einem SERP nicht anzeigen möchten.

 

Robots.txt-Formate zum Zulassen und Nichtzulassen

Robots.txt ist eigentlich ziemlich einfach zu bedienen.

Sie teilen den Robotern buchstäblich mit, welche Seiten “Zulassen” (was bedeutet, dass sie sie indizieren) und welche “Nicht zulassen” (was sie ignorieren).

Sie werden Letzteres nur einmal verwenden, um die Seiten aufzulisten, auf denen Crawler nicht crawlen sollen. Der Befehl “Zulassen” wird nur verwendet, wenn eine Seite gecrawlt werden soll, die übergeordnete Seite jedoch “Nicht zulässig”.

 

So richten Sie Robots.txt für Ihre Website ein

Zunächst müssen Sie Ihre Anweisungen in eine Textdatei schreiben .

Laden Sie als Nächstes die Textdatei in das oberste Verzeichnis Ihrer Site hoch. Dies muss über Cpanel hinzugefügt werden.

boohya-marketing-blog-robots_cpanel-webseite

Ihre Live-Datei wird immer direkt nach dem “.de /” in Ihrer URL angezeigt. Unsere finden Sie beispielsweise unter https://boohya-marketing/robot.txt .

Wenn es sich unter www.boohya-marketing.de/blog/robot.txt befindet, würden sich die Crawler nicht einmal die Mühe machen, danach zu suchen, und keiner seiner Befehle würde befolgt.

Wenn Sie Subdomains haben, stellen Sie sicher, dass diese auch über eigene robots.txt-Dateien verfügen. 

Robots.txt für eine verbesserte Suchmaschinenoptimierung einsetzen

Nachdem Sie dieses wichtige Element der Suchmaschinenoptimierung verstanden haben, überprüfen Sie Ihre eigene Website, um sicherzustellen, dass Suchmaschinen die gewünschten Seiten indizieren und diejenigen ignorieren, die Sie von SERPs fernhalten möchten.

In Zukunft können Sie robot.txt weiterhin verwenden, um Suchmaschinen darüber zu informieren, wie sie Ihre Website crawlen sollen.

You May Also Like…

0 Kommentare

Trackbacks/Pingbacks

  1. Themen-Cluster: Maximieren Sie die SEO-Leistung Ihrer Inhalte - […] Robots.txt […]

Einen Kommentar abschicken

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Hallo, ich bin Nikola. Wie kann ich Ihnen helfen?
Bitte akzeptieren Sie zunächst unsere Datenschutzerklärung, um ein Gespräch zu beginnen.