Benutzer-Werkzeuge

Webseiten-Werkzeuge


de:components
Übersetzungen dieser Seite:

Die wichtigsten Komponenten von regain

Grob betrachtet arbeitet regain folgendermaßen: Der Crawler sucht nach Dokumenten, extrahiert ihren Text und speichert diesen in einem Suchindex. Mit Hilfe dieses Indexes kann die Suchmaske Suchanfragen von Benutzern sehr schnell beantworten. Um den Suchindex zu schreiben und zu nutzen verwendet regain eine Bibliothek namens Lucene.

Lucene verwaltet sehr effizient Suchindizes für große Datenmengen. Lucene bietet lediglich eine Programmierschnittstelle (API) um einen solchen Suchindex zu erzeugen und darin zu suchen. Was in den Index rein soll, oder wann was gesucht werden soll, muss durch ein anderes Programm bestimmt werden: Zum Beispiel regain.

Die wichtigsten Komponenten von regain sind:

  • Crawler - Er sucht nach Dokumenten un extrahiert deren Text mit Hilfe der Präparatoren.
  • Suchindex - Der Suchindex ist eine Sammlung von Dateien, welche von Lucene dazu verwendet werden, Suchanfragen zu beantworten.
  • Suchmaske - Die Suchmaske zeigt dem Benutzer eine Web-Oberfläche, in die er Suchanfragen eingeben und die Suchergebnisse betrachten kann. Die Webseiten werden Hilfe der JSP-Seiten der Suchmaske erstellt.
de/components.txt · Zuletzt geändert: 2014/10/29 10:22 (Externe Bearbeitung)