de:components

====== Die wichtigsten Komponenten von regain ====== Grob betrachtet arbeitet regain folgendermaßen: Der **Crawler** sucht nach Dokumenten, extrahiert ihren Text und speichert diesen in einem **Suchindex**. Mit Hilfe dieses Indexes kann die **Suchmaske** Suchanfragen von Benutzern sehr schnell beantworten. Um den Suchindex zu schreiben und zu nutzen verwendet regain eine Bibliothek namens **Lucene**. [[http://lucene.apache.org/|Lucene]] verwaltet sehr effizient Suchindizes für große Datenmengen. Lucene bietet lediglich eine Programmierschnittstelle (API) um einen solchen Suchindex zu erzeugen und darin zu suchen. Was in den Index rein soll, oder wann was gesucht werden soll, muss durch ein anderes Programm bestimmt werden: Zum Beispiel regain. Die wichtigsten Komponenten von regain sind: * [[:de:components:Crawler]] - Er sucht nach Dokumenten un extrahiert deren Text mit Hilfe der [[:de:components:preparator|Präparatoren]]. * [[:de:components:search index|Suchindex]] - Der Suchindex ist eine Sammlung von Dateien, welche von Lucene dazu verwendet werden, Suchanfragen zu beantworten. * [[:de:components:search mask|Suchmaske]] - Die Suchmaske zeigt dem Benutzer eine Web-Oberfläche, in die er Suchanfragen eingeben und die Suchergebnisse betrachten kann. Die Webseiten werden Hilfe der [[:de:components:search mask jsp pages|JSP-Seiten der Suchmaske]] erstellt.