**Dies ist eine alte Version des Dokuments!** ----
= Desktop:Getting Started = ===== Getting Started ===== Dieser Artikel richtet sich vor allem an die Regain Desktop Newbie's. Also solche Anwender, die Regain zum ersten mal installieren und mit einer Basis Konfiguration auf dem lokalen Rechner einsetzten möchten. Ausgangspunkt ist das frisch entpackte Regain Verzeichnis. Alle Angaben beziehen sich dabei auf die derzeit aktuelle Version Regain Desktop 1.1 für Windows. Beachtet die [[Vergleich der regain-Varianten|Unterschiede]] der Desktop und der Server Version und lest bitte zunächst den Artikel zur [[Desktop:Installation|Installation]]. Ich möchte hier auf 2 Varianten der lokalen Suche eingehen, da sie unterschiedliche Einstellungen in der Konfiguration für den Crawler bedingen. Der [[Crawler]] ist die Komponente von Regain, die den Inhalt erstmalig durchsucht, quasi durchkrault ;-), um für spätere Suchabfragen einen Index aufzubauen. 1. **Eine Suche in lokalen Verzeichnissen:** Hierbei setzen wir den Crawler (zu dt. Krauler = Kr:aul:er) auf ein oder mehrere Start-Verzeichnisse an. Von hier aus durchsucht der kleine, fleißige Bursche dann sämtliche Unterverzeichnisse und deren Unterverzeichnisse und deren . Das ganze nennt man dann eine rekursive Suche! 2. **Eine Suche in einem lokalen Web:** Hierbei wird insbesondere der spezielle Fall betrachtet, dass Regain Desktop ja schließlich selbst einen lokalen ''Webserver'' bereitstellt und damit prima für eine solche Anwendung geeignet ist. Wer jetzt aufgepasst hat könnte anmerken, dass auch ein lokales Web, z.B. ein [http://de.wikipedia.org/wiki/Intranet Intranet] (ob in der Firma oder zuhause) in der Regel auch aus einem oder mehreren Laufwerken, die Verzeichnisse mit Unterverzeichnissen mit Unterverzeichnissen mit enthalten , besteht und damit die Frage stellen, was eigentlich der Unterschied zwischen den Varianten ist. Nun, der Unterschied liegt darin, wie das Suchergebnis anschließend die Links aufbaut. In Fall 1 steht da letztlich ein Link der Form <nowiki>file://...</nowiki>, in Fall 2. wird eine URL mit dem Präfix <nowiki>http://...</nowiki> verwendet. Das kann signifikante Unterschiede der Präsentation des Inhalts zur Folge haben! **Betrachten wir also zunächst Fall 1: Durchsuchen von lokalen Verzeichnissen** Nach der Installation müssen wir zunächst einen Index erstellen. Nach dem Start von Regain checkt die Regain-Applikation schnell, ob der Krauler schon mal was gekrault hat. Wenn nicht, und nur dann, wird die Startseite (welcome.jsp im Verzeichnis web) vom mit Regain gestarteten Webserver auf Port 8020 (per Default) angezeigt. Brav folgt man der Aufforderung zur ''Einstellungsseite'' zu wechseln, um einen Index zu erstellen. Fix noch das Intervall eingeben, um festzulegen wie oft der Index neu erstellt werden soll, das Startverzeichnis angegeben, speichern und LOS! Schon kann man auf der ''Statusseite'' zugucken, wie Regain den Index in atemberaubender Geschwindigkeit aufbaut. Dabei geht es so vor (Aufmerksam das Log beobachten!): Eine gefundene Datei wird anhand der Endung einem sog. ''Preparator'' zugeordnet. Dieser ist dann für die Indizierung des Inhalts zuständig. Er beschäftigt dazu einen Kollegen den sog. ''Content Extractor''. Dieser soll uns jetzt noch nicht beschäftigen, er spielt aber in Fall 2. eine entscheidende Rolle. In dem Augenblick in dem die Festplatte wieder ruhig wird, ist Fall 1 gelöst! Voila! Viel Spaß mit der ersten Desktop Suche, die man entweder über den Link im Footer der Statusseite aufruft, oder über das lustige, kleine [[Bild:Regain-wiki.png]] in der Taskleiste. **Kommen wir nun zu Fall 2.: Durchsuchen eines lokalen Web** Grundsätzlich kann Regain jede [http://de.wikipedia.org/wiki/Website Website] durchsuchen, die über das Intra- oder das Internet erreichbar ist. In der Regel hat jede Website eine Startseite, von der aus alle restlichen Seiten über Hyperlinks erreichbar sind und beginnt mit <nowiki>http://irgend-ein-bloeder-Name.de/index.htm</nowiki> oder so ähnlich. In diesem Artikel gehe ich auf die Verwendung von Regain als lokalem [http://de.wikipedia.org/wiki/Webserver Webserver] ein. Hier ist die lokale Website dann per Default über <nowiki>http://localhost:8020/irgend-eine-startseite.htm</nowiki> zu erreichen, wenn Regain gestartet wurde. **''Vorausgesetzt, die Site wurde in den 'web' Ordner von Regain kopiert.'' ** Aha! Das ist also unser erster Schritt nach der Installation! Rein mit der Site in den Ordner ''web''. Tipp: wenn beim Kopieren die Frage auftaucht: Wollen Sie die vorhandene Datei ersetzen bla bla Erstmal Abbrechen und noch mal nachdenken! Schritt 2 besteht daraus, die Datei ''CrawlerConfiguration.xml'' im Ordner ''conf'' anzupassen. Bitte diesmal NICHT die ''Einstellungseite'' verwenden. In der Version 1.1 drohen sonst Einstellungen, die manuell in der CrawlerConfiguration.xml durchgeführt wurden, verloren zu gehen. In dieser Datei werden nun (mindestens) 3 Punkte angepasst: <pre> <startlist> <start index="false" parse="true"> <nowiki>http://localhost:8020/irgend-eine-startseite.htm</nowiki></start> </startlist> </pre> Damit sagen wir dem Krauler, wo er loskraulen soll. Er wird dann allen in der Startseite angegebenen Hyperlinks folgen, die wieder auf Seiten mit Hyperlinks verweisen, die wieder mit anderen Worten eine rekursive Suche der kompletten Site durchführen. Allerdings werden Seiten nur durchgekrault, wenn Sie in der ''Whitelist'' stehen. Also fix angepasst: <pre> <whitelist> <prefix> http://localhost:8020/</prefix> </whitelist> </pre> Wahrscheinlich beginnen alle lokalen Seiten ja mit diesem Präfix. Ansonsten einfach mehrere Präfixe aufnehmen oder gar einen [[Regulärer Ausdruck]] (RegExp). Wer jetzt den Crawler auf die Suche nach Inhalten schickt, der wird schnell feststellen, dass dieser sich außerstande sieht seinen Job zu machen. Dies zeigt sich im Log. Der HTML Preparator meckert über seinen nicht vorhandenen Kollegen, den Content Extractor! Dies regeln wir schnell, in dem wir die folgende Passage noch in die ''CrawlerConfiguration.xml'' aufnehmen. (Siehe auch die hilfreiche ''CrawlerConfiguration_example.xml''): <pre> <preparator> <class>.HtmlPreparator</class> <urlPattern>(^http://[^/]*/?=)|(^http://.*/[^\.]*=)|(^http://.*/=)|(\.(html|htm|jsp|php\d?|asp)=) </urlPattern> <config> <section name="contentExtractor"> <param name="prefix">http://localhost:8020/</param> <param name="headlineRegex"><a name=.*>(.*)</a></param> <param name="headlineRegex.group">1</param> </section> <section name="pathExtractor"> <param name="prefix"> http://localhost:8020/</param> <param name="pathNodeRegex"><a.*href="([^"]*)">(.*)</a></param> <param name="pathNodeRegex.urlGroup">1</param> <param name="pathNodeRegex.titleGroup">2</param> </section> </config> </preparator> </pre> Wer nicht direkt erkannt hat, was hier konfiguriert wird, der sei auf die tieferen Geheimnisse der [[CrawlerConfiguration.xml|Konfiguration]] verwiesen. Jedenfalls sind wir jetzt soweit direkt zur ''Statusseite'' zu gehen, um dort auf ''Index aktualisieren'' zu klicken. Am einfachsten kommen wir wieder über das kleine [[Bild:Regain-wiki.png]], unseren Freund in der Taskleiste, dorthin. Wieder beobachten wir, nach dem Einschalten der automatischen Aktualisierung der Seite, das Log. Es ist mindestens so spannend wie ein prasselndes Kaminfeuer. Ist der Index fertig erstellt heißt es: Auf die Suche, fertig, LOS! HINWEIS: Dem aufmerksamen Leser ist nicht entgangen, dass alle Veränderungen im Regain Verzeichnis vorgenommen worden sind. Die lokale Site liegt unterhalb von ''web''. Selbst der erstellte Index liet im Verzeichnis ''searchindex''. Damit sind grundsätzlich die Voraussetzungen geschaffen, eine ''durchsuchbare CD'' zu erstellen. Im Artikel [[Regain-Light]] findet sich dazu Weiteres. André Kreienbring --------------------------------------- = Desktop:Einstellungen = Sie haben die regain Desktop-Suche installiert und möchten nun einstellen, was auf Ihrem PC durchsucht werden soll. Oder Sie möchten eine bestehende Einstellung verändern. - Klicken Sie im Browser-Fenster auf den Link ''Einstellungen'' oder machen Sie einen rechten Mausklick auf das regain-Symbol rechts unten in der Taskleiste und klicken Sie dort auf ''Einstellungen''. - Geben Sie unter ''Indexierungsintervall'' an, wie oft der [[Suchindex]] erneuert werden soll. #:''Für den Alltagsgebrauch ist die Einstellung "Eine Woche" hier empfehlenswert.'' - Geben Sie in den weiteren Feldern an, welche Verzeichnisse / Webseiten zur Suche verfügbar sein sollen und welche davon ausgeschlossen sein sollen. #: ''Zum Beispiel "E:\Dokumente\Rechnungen".'' - Klicken Sie auf ''Einstellungen speichern'', um Ihre Einstellungen zu speichern. Je nach dem, welche Änderungen Sie vorgenommen haben, wird nun automatisch ein neuer Suchindex erstellt. ===== Siehe auch ===== * [[Desktop:Index erstellen | Index erstellen]] ---------------------------- = Desktop:Index erstellen = ==Neuen Index erstellen== Wenn regain keinen [[Suchindex|Index]] findet, startet es die Indexierung automatisch. Dies ist dann der Fall, wenn Sie regain neu installiert haben oder den bestehenden Index gelöscht haben. Sie können das Erstellen des Index auf der Seite ''Status'' mitverfolgen. ==Bestehenden Index aktualisieren== Sie haben Änderungen an den [[Desktop:Einstellungen | Einstellungen]] vorgenommen. Um diese Änderungen sofort wirksam zu machen, müssen Sie den Index neu erstellen. - Klicken Sie auf ''Status''. - Klicken Sie auf den Button ''Starten'' neben Indexaktualisierung. #: ''Die Indexierung wird gestartet.'' ==Siehe auch== * [[Index löschen]]