Benutzer-Werkzeuge

Webseiten-Werkzeuge


de:components:crawler
Übersetzungen dieser Seite:

Crawler

Der Crawler ist das Programm, das den Suchindex erstellt. Dieser Index wird von der Suchmaske benötigt, um schließlich Suchen durchführen zu können.

Er durchsucht die in der Konfigurationsdatei CrawlerConfiguration.xml angegebenen Verzeichnisse und Webseiten nach Dokumenten. Bei jedem Dokument, das noch nicht im Index ist, wird mit Hilfe des passenden Präparators der eigentliche Text extrahiert, welcher dann in den Index aufgenommen wird.

Technisch gesehen ist der Crawler eine Java-Stand-Alone-Applikation (regain-crawler.jar), die auf der Konsole läuft, also ohne graphische Benutzeroberfläche. Er kann damit also auch automatisiert gestartet werden, beispielsweise durch einen cron-Job.

Bei der Desktop-Suche wird der Crawler in regelmäßigen Abständen gestartet, er muss also nicht von Hand aufgerufen werden. Dies kann in der Einstellungen-Seite oder direkt in der DesktopConfiguration.xml eingestellt werden. Bei der Server-Suche muss der Crawler von Hand aufgerufen werden. Weitere Details zu den Unterschieden der beiden Varianten siehe Vergleich der regain-Varianten.

Der Crawler muss in dem Verzeichnis aufgerufen werden, in dem er installiert wurde, sonst kann er nicht auf seine Ressourcen (log-Verzeichnis, Präparatoren, etc) zugreifen. Unter Windows also beispielsweise so:

c:
cd C:\Programme\regain\crawler
java -jar regain-crawler.jar

Tipp: Der Crawler muß nicht unbedingt auf dem Rechner laufen, auf dem die Servlet-Engine mit der Suchmaske ausgeführt wird. Man könnte also (zumindest teilweise) die Indizierung mit den umfangreicheren Präparatoren unter Windows realisieren…

de/components/crawler.txt · Zuletzt geändert: 2014/10/29 10:23 (Externe Bearbeitung)