====== Unterschiede ====== Hier werden die Unterschiede zwischen zwei Versionen gezeigt.
Nächste Überarbeitung | Vorhergehende Überarbeitung | ||
de:components:crawler [2009/03/03 13:49] 127.0.0.1 Externe Bearbeitung |
de:components:crawler [2024/09/18 08:32] (aktuell) |
||
---|---|---|---|
Zeile 1: | Zeile 1: | ||
====== Crawler ====== | ====== Crawler ====== | ||
- | Der **Crawler** ist das Programm, das den [[Suchindex]] erstellt. Dieser Index wird von der [[Suchmaske]] benötigt, um schließlich Suchen durchführen zu können. | + | Der **Crawler** ist das Programm, das den [[search index|Suchindex]] erstellt. Dieser Index wird von der [[search mask|Suchmaske]] benötigt, um schließlich Suchen durchführen zu können. |
- | Er durchsucht die in der Konfigurationsdatei [[CrawlerConfiguration.xml]] angegebenen Verzeichnisse und Webseiten nach Dokumenten. Bei jedem Dokument, das noch nicht im Index ist, wird mit Hilfe des passenden [[Präparator]]s der eigentliche Text extrahiert, welcher dann in den Index aufgenommen wird. | + | Er durchsucht die in der Konfigurationsdatei [[:config:CrawlerConfiguration.xml]] angegebenen Verzeichnisse und Webseiten nach Dokumenten. Bei jedem Dokument, das noch nicht im Index ist, wird mit Hilfe des passenden [[preparator|Präparators]] der eigentliche Text extrahiert, welcher dann in den Index aufgenommen wird. |
Technisch gesehen ist der Crawler eine Java-Stand-Alone-Applikation (''regain-crawler.jar''), die auf der Konsole läuft, also ohne graphische Benutzeroberfläche. Er kann damit also auch automatisiert gestartet werden, beispielsweise durch einen cron-Job. | Technisch gesehen ist der Crawler eine Java-Stand-Alone-Applikation (''regain-crawler.jar''), die auf der Konsole läuft, also ohne graphische Benutzeroberfläche. Er kann damit also auch automatisiert gestartet werden, beispielsweise durch einen cron-Job. | ||
- | Bei der [[Desktop-Suche]] wird der Crawler in regelmäßigen Abständen gestartet, er muss also nicht von Hand aufgerufen werden. Dies kann in der Einstellungen-Seite oder direkt in der [[DesktopConfiguration.xml]] eingestellt werden. Bei der Server-Suche muss der Crawler von Hand aufgerufen werden. Weitere Details zu den Unterschieden der beiden Varianten siehe [[Vergleich der regain-Varianten]]. | + | Bei der [[:de:project_info:variant_comparison|Desktop-Suche]] wird der Crawler in regelmäßigen Abständen gestartet, er muss also nicht von Hand aufgerufen werden. Dies kann in der Einstellungen-Seite oder direkt in der [[:de:config:DesktopConfiguration.xml]] eingestellt werden. Bei der Server-Suche muss der Crawler von Hand aufgerufen werden. Weitere Details zu den Unterschieden der beiden Varianten siehe [[:de:project_info:variant_comparison|Vergleich der regain-Varianten]]. |
- | Der Crawler muss in dem Verzeichnis aufgerufen werden, in dem er installiert wurde, sonst kann er nicht auf seine Ressourcen (log-Verzeichnis, [[Präparator]]en, etc) zugreifen. Unter Windows also beispielsweise so: | + | Der Crawler muss in dem Verzeichnis aufgerufen werden, in dem er installiert wurde, sonst kann er nicht auf seine Ressourcen (log-Verzeichnis, [[preparator|Präparatoren]], etc) zugreifen. Unter Windows also beispielsweise so: |
- | c: | + | c: |
- | cd C:\Programme\regain\crawler | + | cd C:\Programme\regain\crawler |
- | java -jar regain-crawler.jar | + | java -jar regain-crawler.jar |
- | Tipps: | + | **Tipp:** |
- | * Der Crawler muß nicht auf dem Rechner laufen, auf dem die Servlet-Engine mit [[Suchmaske]] ausgeführt wird. | + | Der Crawler muß nicht unbedingt auf dem Rechner laufen, auf dem die Servlet-Engine mit der [[search mask|Suchmaske]] ausgeführt wird. Man könnte also (zumindest teilweise) die Indizierung mit den umfangreicheren [[preparator#Liste der Präparatoren|Präparatoren]] unter Windows realisieren... |
- | * Man könnte also (zumindest teilweise) die Indizierung mit den umfangreicheren [[Pr%C3%A4parator#Liste_der_Pr.C3.A4paratoren|Präparatoren]] unter Windows realisieren... | + | |