Benutzer-Werkzeuge

Webseiten-Werkzeuge


de:components:crawler

====== Unterschiede ====== Hier werden die Unterschiede zwischen zwei Versionen gezeigt.

Link zu dieser Vergleichsansicht

Nächste Überarbeitung
Vorhergehende Überarbeitung
de:components:crawler [2009/03/03 13:49]
127.0.0.1 Externe Bearbeitung
de:components:crawler [2024/09/18 08:32] (aktuell)
Zeile 1: Zeile 1:
 ====== Crawler ====== ====== Crawler ======
  
-Der **Crawler** ist das Programm, das den [[Suchindex]] erstellt. Dieser Index wird von der [[Suchmaske]] benötigt, um schließlich Suchen durchführen zu können.+Der **Crawler** ist das Programm, das den [[search index|Suchindex]] erstellt. Dieser Index wird von der [[search mask|Suchmaske]] benötigt, um schließlich Suchen durchführen zu können.
  
-Er durchsucht die in der Konfigurationsdatei [[CrawlerConfiguration.xml]] angegebenen Verzeichnisse und Webseiten nach Dokumenten. Bei jedem Dokument, das noch nicht im Index ist, wird mit Hilfe des passenden [[Präparator]] der eigentliche Text extrahiert, welcher dann in den Index aufgenommen wird.+Er durchsucht die in der Konfigurationsdatei [[:config:CrawlerConfiguration.xml]] angegebenen Verzeichnisse und Webseiten nach Dokumenten. Bei jedem Dokument, das noch nicht im Index ist, wird mit Hilfe des passenden [[preparator|Präparators]]  der eigentliche Text extrahiert, welcher dann in den Index aufgenommen wird.
  
 Technisch gesehen ist der Crawler eine Java-Stand-Alone-Applikation (''​regain-crawler.jar''​),​ die auf der Konsole läuft, also ohne graphische Benutzeroberfläche. Er kann damit also auch automatisiert gestartet werden, beispielsweise durch einen cron-Job. ​ Technisch gesehen ist der Crawler eine Java-Stand-Alone-Applikation (''​regain-crawler.jar''​),​ die auf der Konsole läuft, also ohne graphische Benutzeroberfläche. Er kann damit also auch automatisiert gestartet werden, beispielsweise durch einen cron-Job. ​
  
-Bei der [[Desktop-Suche]] wird der Crawler in regelmäßigen Abständen gestartet, er muss also nicht von Hand aufgerufen werden. Dies kann in der Einstellungen-Seite oder direkt in der [[DesktopConfiguration.xml]] eingestellt werden. Bei der Server-Suche muss der Crawler von Hand aufgerufen werden. Weitere Details zu den Unterschieden der beiden Varianten siehe [[Vergleich der regain-Varianten]].+Bei der [[:​de:​project_info:​variant_comparison|Desktop-Suche]] wird der Crawler in regelmäßigen Abständen gestartet, er muss also nicht von Hand aufgerufen werden. Dies kann in der Einstellungen-Seite oder direkt in der [[:de:config:DesktopConfiguration.xml]] eingestellt werden. Bei der Server-Suche muss der Crawler von Hand aufgerufen werden. Weitere Details zu den Unterschieden der beiden Varianten siehe [[:​de:​project_info:​variant_comparison|Vergleich der regain-Varianten]].
  
-Der Crawler muss in dem Verzeichnis aufgerufen werden, in dem er installiert wurde, sonst kann er nicht auf seine Ressourcen (log-Verzeichnis,​ [[Präparator]]en, etc) zugreifen. Unter Windows also beispielsweise so: +Der Crawler muss in dem Verzeichnis aufgerufen werden, in dem er installiert wurde, sonst kann er nicht auf seine Ressourcen (log-Verzeichnis,​ [[preparator|Präparatoren]], etc) zugreifen. Unter Windows also beispielsweise so: 
- c: +  c: 
- cd C:​\Programme\regain\crawler +  cd C:​\Programme\regain\crawler 
- java -jar regain-crawler.jar+  java -jar regain-crawler.jar
  
-Tipps+**Tipp:** 
-  ​* ​Der Crawler muß nicht auf dem Rechner laufen, auf dem die Servlet-Engine mit [[Suchmaske]] ausgeführt wird. +Der Crawler muß nicht unbedingt ​auf dem Rechner laufen, auf dem die Servlet-Engine mit der [[search mask|Suchmaske]] ausgeführt wird. Man könnte also (zumindest teilweise) die Indizierung mit den umfangreicheren [[preparator#Liste der Präparatoren|Präparatoren]] unter Windows realisieren...
-  * Man könnte also (zumindest teilweise) die Indizierung mit den umfangreicheren [[Pr%C3%A4parator#Liste_der_Pr.C3.A4paratoren|Präparatoren]] unter Windows realisieren...+
  
de/components/crawler.1236084555.txt.gz · Zuletzt geändert: 2024/09/18 08:32 (Externe Bearbeitung)