Benutzer-Werkzeuge

Webseiten-Werkzeuge


de:components:crawler
Übersetzungen dieser Seite:

**Dies ist eine alte Version des Dokuments!** ----

A PCRE internal error occured. This might be caused by a faulty plugin

====== Crawler ====== Der **Crawler** ist das Programm, das den [[Suchindex]] erstellt. Dieser Index wird von der [[Suchmaske]] benötigt, um schließlich Suchen durchführen zu können. Er durchsucht die in der Konfigurationsdatei [[CrawlerConfiguration.xml]] angegebenen Verzeichnisse und Webseiten nach Dokumenten. Bei jedem Dokument, das noch nicht im Index ist, wird mit Hilfe des passenden [[Präparator]]s der eigentliche Text extrahiert, welcher dann in den Index aufgenommen wird. Technisch gesehen ist der Crawler eine Java-Stand-Alone-Applikation (''regain-crawler.jar''), die auf der Konsole läuft, also ohne graphische Benutzeroberfläche. Er kann damit also auch automatisiert gestartet werden, beispielsweise durch einen cron-Job. Bei der [[Desktop-Suche]] wird der Crawler in regelmäßigen Abständen gestartet, er muss also nicht von Hand aufgerufen werden. Dies kann in der Einstellungen-Seite oder direkt in der [[DesktopConfiguration.xml]] eingestellt werden. Bei der Server-Suche muss der Crawler von Hand aufgerufen werden. Weitere Details zu den Unterschieden der beiden Varianten siehe [[Vergleich der regain-Varianten]]. Der Crawler muss in dem Verzeichnis aufgerufen werden, in dem er installiert wurde, sonst kann er nicht auf seine Ressourcen (log-Verzeichnis, [[Präparator]]en, etc) zugreifen. Unter Windows also beispielsweise so: c: cd C:\Programme\regain\crawler java -jar regain-crawler.jar Tipps: * Der Crawler muß nicht auf dem Rechner laufen, auf dem die Servlet-Engine mit [[Suchmaske]] ausgeführt wird. * Man könnte also (zumindest teilweise) die Indizierung mit den umfangreicheren [[Pr%C3%A4parator#Liste_der_Pr.C3.A4paratoren|Präparatoren]] unter Windows realisieren...

de/components/crawler.1236084555.txt.gz · Zuletzt geändert: 2024/09/18 08:32 (Externe Bearbeitung)