**Kommen wir nun zu Fall 2.: Durchsuchen eines lokalen Web**
Grundsätzlich kann Regain jede [[http://de.wikipedia.org/wiki/Website|Website]] durchsuchen, die über das Intra- oder das Internet erreichbar ist. In der Regel hat jede Website eine Startseite, von der aus alle restlichen Seiten über Hyperlinks erreichbar sind und beginnt mit
Damit sagen wir dem Krauler, wo er loskraulen soll. Er wird dann allen in der Startseite angegebenen Hyperlinks folgen, die wieder auf Seiten mit Hyperlinks verweisen, die wieder mit anderen Worten eine rekursive Suche der kompletten Site durchführen. Allerdings werden Seiten nur durchgekrault, wenn Sie in der ''Whitelist'' stehen. Also fix angepasst:http://localhost:8020/irgend-eine-startseite.htm
Wahrscheinlich beginnen alle lokalen Seiten ja mit diesem Präfix. Ansonsten einfach mehrere Präfixe aufnehmen oder gar einen [[Regulärer Ausdruck]] (RegExp). Wer jetzt den Crawler auf die Suche nach Inhalten schickt, der wird schnell feststellen, dass dieser sich außerstande sieht seinen Job zu machen. Dies zeigt sich im Log. Der HTML Preparator meckert über seinen nicht vorhandenen Kollegen, den Content Extractor! Dies regeln wir schnell, in dem wir die folgende Passage noch in die ''CrawlerConfiguration.xml'' aufnehmen. (Siehe auch die hilfreiche ''CrawlerConfiguration_example.xml''):http://localhost:8020/
Wer nicht direkt erkannt hat, was hier konfiguriert wird, der sei auf die tieferen Geheimnisse der [[config:crawlerconfiguration.xml|Konfiguration]] verwiesen. Jedenfalls sind wir jetzt soweit direkt zur ''Statusseite'' zu gehen, um dort auf ''Index aktualisieren'' zu klicken. Am einfachsten kommen wir wieder über das kleine [[Bild:Regain-wiki.png]], unseren Freund in der Taskleiste, dorthin. Wieder beobachten wir, nach dem Einschalten der automatischen Aktualisierung der Seite, das Log. Es ist mindestens so spannend wie ein prasselndes Kaminfeuer. Ist der Index fertig erstellt heißt es: Auf die Suche, fertig, LOS! HINWEIS: Dem aufmerksamen Leser ist nicht entgangen, dass alle Veränderungen im Regain Verzeichnis vorgenommen worden sind. Die lokale Site liegt unterhalb von ''web''. Selbst der erstellte Index liet im Verzeichnis ''searchindex''. Damit sind grundsätzlich die Voraussetzungen geschaffen, eine ''durchsuchbare CD'' zu erstellen. Im Artikel [[Regain-Light]] findet sich dazu Weiteres. André Kreienbring ------------------------------ = Regain-Light = 'regain-Light' ist eine abgespeckte (ab 6 MB klein - je nach Indexgröße) regain-Desktop-Version, die dann eingesetzt werden kann, wenn auf die Crawler-Funktionalität verzichtet wird. Zum Beispiel, wenn regain-Index auf eine CD gebrannt und der Index sowieso nicht aktualisierbar ist. ==regain-Light erstellen HowTo== Begriffsklärung: **Inhalt:** Es handelt sich um Verzeichnisinhalte oder um Webseiten, die mit Hilfe von Regain indiziert wurden und durchsucht werden sollen. **Index:** Hier: Der Inhalte des Ordners ''searchindex'' unterhalb des Regain Verzeichnisses. **Externer Datenträger:** Wechselmedium, z.B. CD, USB-Stick u.ä. **Ziel PC:** Der Rechner des Anwenders, der den externen Datenträger einsetzt, um den Inhalt zu durchsuchen. **Applikation:** Alle Dateien aus denen Regain besteht und das zum Betrieb notwendige [http://de.wikipedia.org/wiki/JRE Java Runtime Environment (JRE)]. **Regain-Verzeichnis:** Dieses Verzeichnis dient als Container. In dem Container wird die Applikation, der Inhalt und der Index vorbereitet. Später wird der Container auf den externen Datenträger übertragen. In der Regel ist die Basis dafür das Verzeichnis, dass aus der Installation von Regain hervorgeht. ''Das Ziel von Regain-Light ist die Verwendung oder Weitergabe von indiziertem, also durchsuchbarem Inhalt und der vollständigen Applikation auf einem externen Datenträger. Dadurch ist auf dem Ziel-PC keinerlei Installation notwendig.'' **Schritt für Schritt:** Ich gehe in diesem Artikel davon aus, dass die Erstellung von Regain-Light auf Basis des frisch entpackten Regain-Verzeichnisses vorgenommen wird. **1. Inhalt in das Regain Verzeichnis kopieren:** Ich empfehle dafür unterhalb es Ordners ''web'' eine entsprechende Verzeichnisstruktur anzulegen und den Inhalt bereits VOR der Erstellung des Index dort hinein zu kopieren. Auf diese Weise stimmen nach der Indizierung durch den Crawler bereits alle Referenzen auf die Inhalte. Sollte hier anders vorgegangen werden muß der Schritt ''Konfiguration der Rewrite Rules'' durchgeführt werden. **2. Index erstellen:** Der fertige Index wird dabei im Regain-Verzeichnis im Ordner ''searchindex'' angelegt. **3. Anpassung des Look and Feels von Regain** Das bedeutet im Wesentlichen: Anpassen der Weboberfläche von Regain. **4. Logging Ausgabe anpassen:** In der Datei conf/''log4j.properties'' die Einstellungen ''log4j.rootCategory'' ändern in: log4j.rootCategory=INFO, stdout Hiermit wird z.B. verhindert, dass Regain versucht ein Log auf eine CD zu schreiben. **5. Index Aktualisierungs Intervall:** Defaultmäßig wird Regain in diesem Intervall den Inhalt neu indizieren. Für Regain-Light gehen wir aber von statischem Inhalt aus. In der Version 1.1 kann die Index-Aktualisierung nicht per Konfiguration unterbunden werden. Das Intervall kann aber in der [[DesktopConfiguration.xml]] auf einen sehr hohen Wert eingestellt werden. **6. Konfiguration der Rewrite Rules:** Achtung: Nur notwendig, wenn indieziert wurde, BEVOR der Inhalt in das Regain-Verzeichnis übertragen wurde! Damit die Verweise in der Ergebnisliste der Suche nach dem Speichern auf einem externen Datenträger funktionsfähig sind, passen Sie die entsprechende //RewriteRules// in der Datei [[config:searchconfiguration.xml]] an. Zum Beispiel, die Anweisung.HtmlPreparator (^http://[^/]*/?=)|(^http://.*/[^\.]*=)|(^http://.*/=)|(\. (html|htm|jsp|php\d?|asp)=) http://localhost:8020/ <a name=.*>(.*)</a> 1 http://localhost:8020/ <a.*href="([^"]*)">(.*)</a> 1 2