regain manual

====== Unterschiede ====== Hier werden die Unterschiede zwischen zwei Versionen gezeigt.

--- de:components:crawler [2009/03/03 13:49]
127.0.0.1 Externe Bearbeitung
+++ de:components:crawler [2024/09/18 08:32] (aktuell)
@@ Zeile 1: / Zeile 1: @@
 ====== Crawler ======
-Der **Crawler** ist das Programm, das den [[Suchindex]] erstellt. Dieser Index wird von der [[Suchmaske]] benötigt, um schließlich Suchen durchführen zu können.
+Der **Crawler** ist das Programm, das den [[search index|Suchindex]] erstellt. Dieser Index wird von der [[search mask|Suchmaske]] benötigt, um schließlich Suchen durchführen zu können.
-Er durchsucht die in der Konfigurationsdatei [[CrawlerConfiguration.xml]] angegebenen Verzeichnisse und Webseiten nach Dokumenten. Bei jedem Dokument, das noch nicht im Index ist, wird mit Hilfe des passenden [[Präparator]]s  der eigentliche Text extrahiert, welcher dann in den Index aufgenommen wird.
+Er durchsucht die in der Konfigurationsdatei [[:config:CrawlerConfiguration.xml]] angegebenen Verzeichnisse und Webseiten nach Dokumenten. Bei jedem Dokument, das noch nicht im Index ist, wird mit Hilfe des passenden [[preparator|Präparators]]  der eigentliche Text extrahiert, welcher dann in den Index aufgenommen wird.
 Technisch gesehen ist der Crawler eine Java-Stand-Alone-Applikation (''regain-crawler.jar''), die auf der Konsole läuft, also ohne graphische Benutzeroberfläche. Er kann damit also auch automatisiert gestartet werden, beispielsweise durch einen cron-Job.
-Bei der [[Desktop-Suche]] wird der Crawler in regelmäßigen Abständen gestartet, er muss also nicht von Hand aufgerufen werden. Dies kann in der Einstellungen-Seite oder direkt in der [[DesktopConfiguration.xml]] eingestellt werden. Bei der Server-Suche muss der Crawler von Hand aufgerufen werden. Weitere Details zu den Unterschieden der beiden Varianten siehe [[Vergleich der regain-Varianten]].
+Bei der [[:de:project_info:variant_comparison|Desktop-Suche]] wird der Crawler in regelmäßigen Abständen gestartet, er muss also nicht von Hand aufgerufen werden. Dies kann in der Einstellungen-Seite oder direkt in der [[:de:config:DesktopConfiguration.xml]] eingestellt werden. Bei der Server-Suche muss der Crawler von Hand aufgerufen werden. Weitere Details zu den Unterschieden der beiden Varianten siehe [[:de:project_info:variant_comparison|Vergleich der regain-Varianten]].
-Der Crawler muss in dem Verzeichnis aufgerufen werden, in dem er installiert wurde, sonst kann er nicht auf seine Ressourcen (log-Verzeichnis, [[Präparator]]en, etc) zugreifen. Unter Windows also beispielsweise so:
+Der Crawler muss in dem Verzeichnis aufgerufen werden, in dem er installiert wurde, sonst kann er nicht auf seine Ressourcen (log-Verzeichnis, [[preparator|Präparatoren]], etc) zugreifen. Unter Windows also beispielsweise so:
- c:
+  c:
- cd C:\Programme\regain\crawler
+  cd C:\Programme\regain\crawler
- java -jar regain-crawler.jar
+  java -jar regain-crawler.jar
-Tipps:
+**Tipp:**
-  * Der Crawler muß nicht auf dem Rechner laufen, auf dem die Servlet-Engine mit [[Suchmaske]] ausgeführt wird.
+Der Crawler muß nicht unbedingt auf dem Rechner laufen, auf dem die Servlet-Engine mit der [[search mask|Suchmaske]] ausgeführt wird. Man könnte also (zumindest teilweise) die Indizierung mit den umfangreicheren [[preparator#Liste der Präparatoren|Präparatoren]] unter Windows realisieren...
-  * Man könnte also (zumindest teilweise) die Indizierung mit den umfangreicheren [[Pr%C3%A4parator#Liste_der_Pr.C3.A4paratoren|Präparatoren]] unter Windows realisieren...

regain manual

Benutzer-Werkzeuge

Webseiten-Werkzeuge

Seiten-Werkzeuge