➤ Robot: Definition und Anwendungsfälle

Inhaltsverzeichnis

Was ist ein Robot?

Wie funktioniert ein Robot?

Wie kann ein Robot beeinflusst werden?

Wieso werden Robots eingesetzt?

Was ist Webanalyse, Data Mining & Co?

Was ist ein Robot?

Ein Robot bezeichnet im Bereich der Suchmaschinenoptimierung ein Programm oder einen Bot, der eigenständig und ohne menschliche Hilfe nach neuen Inhalten und Verzeichnissen sucht, diese bewertet und im Anschluss auch indexiert. Die Robots werden umgangssprachlich auch als Crawler bezeichnet und machen mittlerweile ungefähr 40% des weltweiten Traffics aus. Damit ein Robot seine Aufgabe richtig erledigen kann, müssen ihm Befehle gegeben werden. Dies kann einerseits durch die Suchmaschine, andererseits aber auch durch einen Seiten Betreiber geschehen, der in einer Datei genau hinterlegt, welche Verzeichnisse vom Robot gelesen werden dürfen, und welche nicht.

Wie funktioniert ein Robot?

Ein Robot funktioniert in der Regel vollautomatisch und analysiert bei der Suche Dokumente und Seiten. Um Beziehungen richtig deuten zu können, folgt er auch internen und externen Links. Damit alle Daten im Internet richtig erfasst werden können, benötigt er vor der Suche eine konkrete Aufgabe. Dies ist nötig, um beispielsweise Produkte oder Seiten einer bestimmten Kategorie zuzuordnen und Informationen zu bündeln. Der Robot durchsucht das Internet immer wieder und kann so auch aktualisierte Informationen und Seiten beachten, die bereits indexiert sind. Der Crawler, Bot oder Robot durchsucht idealerweise alle Seiten und Links, die zu einer Webseite gehören. Verwehrt bleiben kann ihm diese Aufgabe aber beispielsweise durch ein Passwort oder eine umfangreich angelegt Robots.txt Datei.

Wie kann ein Robot beeinflusst werden?

Ein Crawler, der oft auch Robot genannt wird, kann von Seiten Betreibern durch die Erstellung einer Robots.txt Datei beeinflusst werden. Eigentlich hat ein Crawler die Aufgabe, alle Dateien und Seiten, die zu einem Verzeichnis gehören, zu durchsuchen. Dies kann allerdings durch eine Robots.txt Datei verhindert werden. In der Textdatei, die sich immer im Hauptverzeichnis befinden muss, damit sie gelesen wird, kann genau definiert werden, welche Seiten ein Robot nicht durchsuchen darf. Zwar sind die Suchmaschinen Crawler nicht direkt dazu gezwungen, solch eine Robots.txt Datei zu beachten, allerdings kommunizieren die Suchmaschinen schon länger, dass immer erst die Befehle einer solchen Textdatei ausgelesen werden, bevor auf andere Verzeichnisse der Seite zugegriffen wird.

In der Robots.txt Datei kann dann vom Seitenbetreiber genau definiert werden, welche Verzeichnisse unberührt vom Crawler bleiben. Auch lassen sich Rechte von verschiedenen Suchmaschinen Crawlern klar bestimmen.

Wieso werden Robots eingesetzt?

Die Robots oder Crawler werden von Suchmaschinen eingesetzt, da sie automatisiert Indizes erstellen können, die eine Grundlage für die Einordnung von verschiedenen Suchergebnissen bieten. Den Bots wird dabei eine ganz spezifische Aufgabe zugeteilt. So kann bei bestimmten Ereignissen nach expliziten Themenbereichen oder weiterführenden Links gesucht werden. Besonders verbreitet sind bei Bots die Recherche für Preisvergleiche, die klassische Webanalyse und das Data-Mining.

Was ist Webanalyse, Data Mining & Co?

Bei den Preisvergleichen werden Daten zu Produktkategorien und Preisen gesammelt, damit Kunden auf Vergleichsportalen unterschiedliche Angebote betrachten können. Bei der klassischen Webanalyse geht es um alle Daten, die mit Besuchern einer Seite zusammenhängen. So können vom Crawler eindeutige Aussagen zu Besuchern einer Webseite getroffen werden. Dazu gehören beispielsweise die Besucherzahlen, aber auch Absprungrate und Verweildauer sind wichtige Parameter der Webanalyse. Beim Data Mining wird das Internet überwiegend auf E-Mail Adressen und Telefonnummern durchsucht.