Google, Bing & Co.- Wie funktionieren Suchmaschinen?

3/30/2022
Time reading time

Was ist eine Suchmaschine?

Eine Suchmaschine ist ein Programm, das im Browser nach Inhalten sucht. Diese Inhalte sind im Internet oder einer geschlossenen Datenbank gespeichert. Nach der Eingabe einer Suchanfrage mittels Text - oder was heutzutage auch öfters vorkommt via Stimme - liefert die Suchmaschine eine lange Liste von Ergebnissen, die auf die relevanten Dokumente hinweisen.

Allgemeiner Ablauf

Suchmaschinen durchsuchen nicht das komplette Internet, sondern nur einen Teil davon, nämlich das uns allen bekannte World Wide Web. Zum Internet gehören auch Dienste wie E-Mail, Chats, Internettelefonie und Datenübertragung. Allgemein kann man den Ablauf in drei Schritte einteilen. Die Systeme sind natürlich viel komplexer als im folgenden Beitrag dargestellt. Demnach können Sie dies als eine kleine Einführung in die Welt der Suchmaschinen ansehen. Als erster Schritt findet die Erfassung statt. Hierbei werden in der Suchmaschine laufend neue Informationen gesammelt, dabei helfen die sogenannten Crawler. Diese werden im weiteren Verlauf näher beleuchtet. Nach der Erfassung erfolgt die Informationsaufbereitung und Indizierung. An dieser Stelle werden all die gesammelten Daten so bearbeitet, dass daraus ein Index erstellt werden kann. Der Index bildet den Kern der Websuche. Daraufhin folgt der Schritt der Informationsbereitstellung. Hier wird für jede Anfrage der passende Index durchsucht.

Was ist ein Index?

Der Index ist der Datenbestand eines Suchmaschinenbetreibers. Er bildet die Struktur, die man für eine Datenbank benötigt. Dadurch wird die Suche und das Sortieren nach bestimmten Feldern vereinfacht und beschleunigt. Der Index fasst alle bisherigen Seiten zusammen, die von der Suchmaschine selbst verarbeitet worden sind. Verarbeitet bedeutet in dem Fall, dass die Suchmaschine die Seite gefunden, analysiert und die relevanten Inhalte der Seite dauerhaft gespeichert hat. Sie können sich den Index als eine sehr große Datenbank vorstellen. Er beinhaltet alle bereits gesammelten Inhalte und noch zu sammelnden Inhalte. Der Index spielt demnach eine enorm wichtige Rolle.

Von der Suchanfrage bis zum Ergebnis

In unserem Fall geben wir in die Suchleiste “WLAN für mein Unternehmen” ein. Dieser Schritt ist für uns als Nutzer sichtbar. Doch was geschieht, nachdem bzw. in dem Moment, wenn wir die ENTER-Taste drücken?Zunächst muss eine Suche nach dem richtigen Datenzentrum stattfinden. Suchmaschinenbetreiber besitzen weltweit Datenzentren mit Servern, auf denen der Index gespeichert ist. Somit werden im Hintergrund sofort ein oder mehrere Datenzentren ausgewählt, die zu der Suchanfrage passen. Hierbei spielen Faktoren wie die räumliche Nähe, Geschwindigkeit und Auslastungsgrad eine enorm wichtige Rolle.Der darauffolgende Suchlauf durch den Index ist ein weiterer unsichtbarer Schritt. Bei großen Suchmaschinen wie Google, Yahoo und Bing etc. ist der Index extra für parallele Abfragen gebaut. Das bedeutet, dass jeder Server nur einen Teil der Abfrage durchführen muss, sodass der Index schneller durchsucht werden kann. Wichtig zu erwähnen ist auch, dass eine Suchmaschine nicht nach dem bestimmten Wort sucht, sondern nach Buchstabenmustern. Nachdem der Suchverlauf durchgeführt wurde und ein erstes Suchergebnis zusammengestellt ist, muss noch mal eine Überprüfung durchgeführt werden. Es kann nämlich sein, dass der Nutzer sich verschrieben oder Begriffe, die zusammengeschrieben werden, getrennt geschrieben hat. Sie kennen das bestimmt selbst. In der Eile verschreibt man sich leicht und Google bietet einem die Funktion “Meintest du” an. Die Suchmaschine kann dies nachvollziehen und bietet bei Bedarf einen geeigneteren Begriff an. Nachdem eine Suche durch den Index getätigt wurde, muss nun nach dem richtigen Dokument gesucht werden. Die Index-Server bestehen hauptsächlich aus Wörtern und Adressen. Sie verweisen auf die sogenannten Doc-Server. Die Doc-Server beinhalten Titel, Textzüge und weitere Daten der gespeicherten Dokumente. Um den Ablauf etwas zu beschleunigen, kann man Ergebnisse häufiger Suchanfragen zwischenspeichern. So muss man nicht jedes Mal erneut den Index durchsuchen, sondern kann auf das Zwischengespeicherte zurückgreifen.Im letzten Schritt muss die Suchinformation, dem Nutzer angezeigt werden. Schließlich wollen wir auf den ersten Blick die wichtigsten Internetseiten für den eingegebenen Suchbegriff sehen. In der Regel klickt der Nutzer eines der ersten zehn Suchergebnisse an. Nach all diesen Schritten sehen wir als Nutzer nun eine lange Liste an Ergebnissen für unsere Suchanfrage “WLAN für mein Unternehmen”. Sie sehen: In den 0,57 Sekunden laufen viele komplexe, aber interessante Schritte ab.Die Suchmaschine ist kein Mensch. Damit die Dokumente für die Suchmaschine jedoch verständlich werden und eine geeignete Informationsausarbeitung stattfinden kann, sind folgende Schritte notwendig: 1. NormalisierungBei der Datennormalisierung geht es darum, alle notwendigen und relevanten Informationen zu speichern. Alle unnötigen Informationen zu der Programmierung und Formatierung werden hierbei entfernt. Dadurch kann das Dokument von der Suchmaschine in den weiteren Schritten besser verstanden und analysiert werden.2. TokenizingFür die Suchmaschine besteht das eingehende Dokument aus willkürlichen Zeichen. Damit sie Schlüsselwörter erkennen kann, ist es wichtig, dass sie einzelne Wörter herauslesen kann. Dafür werden Wortseparatoren wie beispielsweise Leerzeichen oder Sonderzeichen wie # oder + benutzt. Diese helfen der Suchmaschine, Wortgrenzen zu identifizieren.3. Lower-Case-ConvertEinzelne Wörter werden hier automatisch in Kleinschreibung umgestellt, denn dies erweist sich als eindeutig einfacher für die Weiterverarbeitung, Analyse und Vergleiche.4. Language DetectionAls nächster Schritt folgt die Spracherkennung. Wenn Sie etwas auf Deutsch suchen, erwarten Sie natürlich auch deutschsprachige Ergebnisse. Dafür setzt die Suchmaschine unterschiedliche Systeme ein, um die richtige Sprache erkennen zu können. Die Identifikation der Sprache findet hierbei durch den Abgleich mit Wörterbüchern und anderen Dokumenten statt.5. Grundformreduzierung durch Word-StemmingWord-Stemming führt jedes Wort auf die Grundform zurück. So können verwandte Wörter zusammengeführt werden. Demnach wird eine Wortgrundform gespeichert und alle anderen Formen liegen darunter. Dies erweist sich als besonders effizient für die Suchmaschine, da der Umfang der Dokumente verkleinert wird.6. Stoppwort- AnalyseIn diesem Schritt findet die Stoppwort-Analyse statt. Stoppwörter sind Wörter wie mit, du, aber, beim oder wir. Um die Bedeutung des Textes zu verstehen, sind diese Wörter nicht relevant. Durch den Vergleich mit einer Stoppwort-Liste werden diese Wörter von der Suchmaschine entfernt. 7. Keyword- Extrahierung und AnalyseNachdem die Suchmaschine mit einer Art Filter die für sie relevanten Begriffe erkannt hat, ist es nun wichtig, folgende Aspekte zu überprüfen: Zum einen wird die Rechtschreibung überprüft, zum anderen werden Synonyme und Homonyme identifiziert. Ferner ist für das passende Ergebnis auch eine Keyword-Identifikation wichtig. Damit ein Begriff als Keyword zählt, sind folgende drei Kriterien zu erfüllen:

  • Sichtwortvalidität: Die Begriffe müssen als relevante Stichwörter dienen. Dementsprechend müssen Konjunktionen und Negationen ausgeschlossen werden.
  • Gewichtungsvalidität: Hier stellt man sich die Frage, inwiefern der Schlüsselbegriff wichtig für den Inhalt des Textes ist.
  • Cluster-Validität: Die Keywords sollten so ausgerichtet sein, dass sie sich mit anderen Dokumenten verknüpfen können.

8. Wort IDIm letzten Schritt bekommen die Begriffe eine eindeutige WordID. So wird beispielsweise aus “WLAN für mein Unternehmen” einfach mal #6678. Somit spart sich das System Platz und Größe, da die WordID kürzer ist.