regain manual

Übersetzungen dieser Seite:

en
de

**Dies ist eine alte Version des Dokuments!** ----

A PCRE internal error occured. This might be caused by a faulty plugin

ï»¿====== PrÃ¤paratoren ====== Bevor der [[Crawler]] ein Dokument in den [[Suchindex]] aufnehmen kann, muss zuerst der Text des Dokuments extrahiert werden. Dies wird von s.g. **PrÃ¤paratoren** Ã¼bernommen. FÃ¼r jedes Datenformat ist immer ein bestimmter PrÃ¤parator zustÃ¤ndig. So gibt es einen Html-PrÃ¤parator, der Text aus HTML-Dokumenten lesen kann, einen PDF-PrÃ¤parator, der PDFs lesen kann, usw. PrÃ¤paratoren sind in Form von Plugins realisiert. D.h. die PrÃ¤paratoren sind nicht in das Hauptprogramm integriert, sondern befinden sich in eigenen Dateien im Verzeichnis ''preparator''. So kÃ¶nnen neuentwickelte PrÃ¤paratoren fÃ¼r die Behandlung weiterer Datenformate und -quellen leicht in regain eingebunden werden. AuÃerdem kann man flexibel festlegen, welche PrÃ¤paratoren regain verwenden soll. ===== Einbindung von PrÃ¤paratoren ===== Ein PrÃ¤parator weiÃ eigentlich selbst, fÃ¼r welche Dokumente er zustÃ¤ndig ist. Zur Aktivierung muÃ man lediglich: * den PrÃ¤parator in das Verzeichnis ''preparator'' kopieren und * im ''preparatorList''-Tag der Datei [[CrawlerConfiguration.xml]] durch regulÃ¤re AusdrÃ¼cke festlegen, welcher PrÃ¤parator fÃ¼r welche URLs verwendet werden soll (s.a. das optionale ''urlPattern''-Tag). Manche PrÃ¤paratoren kann man dort noch mit weiteren Einstellungen konfigurieren. Beispielsweise kann man den HTML-PrÃ¤parator so einstellen, dass er nur einen bestimmten Teil der HTML-Datei auswertet (also z.B. den Navigationsteil ignoriert). AuÃerdem ist die Reihenfolge, in der die PrÃ¤paratoren vom [[Crawler]] aufgerufen werden, zu deklarieren. ===== Rangfolge von PrÃ¤paratoren im Crawler ===== Der [[Crawler]] fÃ¼hrt intern eine Liste aller PrÃ¤paratoren im Verzeichnis ''preparator''. Am Anfang der Liste stehen die PrÃ¤paratoren in der Reihenfolge, wie im ''preparatorList''-Tag aus der [[CrawlerConfiguration.xml]]. Danach folgen in unbestimmter Ordnung die PrÃ¤paratoren, die nicht explizit im ''preparatorList''-Tag konfiguriert wurden. Der Crawler probiert bei jedem Dokument die PrÃ¤paratoren in Reihenfolge dieser Liste. Der erste zur jeweiligen URL passende PrÃ¤parator wird verwendet. Falls dieser PrÃ¤parator mit einem Fehler abbricht, probiert der Crawler die Liste weiter, bis wieder ein PrÃ¤parator zur URL passt. Auf diese Weise sind PrÃ¤paratoren, die das gleiche Dateiformat lesen kÃ¶nnen, kaskadierbar. Falls der erste beim Textextrahieren fÃ¼r das ''content''-Feld scheitert, kann es vielleicht der zweite... ===== Ausschalten bestimmter PrÃ¤paratoren ===== Um etwa die [[Crawler|Aufnahme]] bestimmter Dateitypen in den [[Suchindex]] zu verhindern, kÃ¶nnen (neben der ''blacklist'') auch einzelne PrÃ¤paratoren deaktiviert werden. Es gibt zwei MÃ¶glichkeiten: * Entweder entfernt man die zugehÃ¶rige ''.jar''-Datei aus dem Verzeichnis ''preparator'', * oder man setzt beim entsprechenden ''preparator''-Tag das Attribut ''enabled'' auf ''false''. **Beispiel:** Deaktivierung des PrÃ¤parators ''JacobMsExcelPreparator'': <preparatorList> ... <preparator enabled="false"> <class>.JacobMsExcelPreparator</class> </preparator> ... </preparatorList> ===== Liste der PrÃ¤paratoren ===== In regain sind die folgenden PrÃ¤paratoren enthalten: **PlattformunabhÃ¤ngige PrÃ¤paratoren:** * [[HtmlPreparator]] - PrÃ¤pariert HTML-Dokumente. * [[PdfBoxPreparator]] - PrÃ¤pariert PDF-Dokumente, basiert auf [http://www.pdfbox.org pdfbox]. * [[OpenOfficePreparator]] - PrÃ¤pariert OpenOffice-Dokumente. * [[PoiMsOfficePreparators]] - Eine Sammlung von PrÃ¤paratoren, die die Microsoft-Office-Formate Word, Excel und Powerpoint prÃ¤parieren kÃ¶nnen. Diese PrÃ¤paratoren basierend auf [http://jakarta.apache.org/poi/ POI] sind 100% pure Java und laufen damit auf jeder Plattform. * [[PlainTextPreparator]] - PrÃ¤pariert einfachen ASCII-Text. * [[XmlPreparator]] - PrÃ¤pariert XML-Dokumente. * [[SimpleRtfPreparator]] - PrÃ¤pariert RTF-Dokumente. Nutzt eine eigene RTF-Implementierung. * [[SwingRtfPreparator]] - PrÃ¤pariert RTF-Dokumente. Nutzt die [http://java.sun.com/j2se/1.5.0/docs/api/javax/swing/JEditorPane.html RTF-Implementierung] von Java (Swing). * [[EmptyPreparator]] - indexiert nur die URL/Dateiname, Datum usw. (ignoriert Inhalt) * [[ExternalPreparator]] - ÃberlÃ¤sst das PrÃ¤parieren einem externen Programm oder Script und kann damit fÃ¼r alle mÃ¶glichen Dateiformate eingesetzt werden. **PrÃ¤paratoren, die nur auf Windows-Systemen laufen:** * [[IfilterPreparator]] - Ein PrÃ¤parator, der die [http://msdn.microsoft.com/library/default.asp?url=/library/en-us/indexsrv/html/ixrefint_9sfm.asp IFilter-Schnittstelle] von Microsoft nutzt. Dieser PrÃ¤parator lÃ¤uft nur unter Windows. Welche Formate unterstÃ¼tzt werden, hÃ¤ngt davon ab, welche IFilter auf dem Windows-System installiert sind. Windows selbst bringt jedoch schon eine sehr groÃe Anzahl an IFiltern fÃ¼r alle gÃ¤ngigen Formate mit. [http://www.citeknet.com IFilter Explorer] zeigt die installierten Filter an. * [[JacobMsOfficePreparators]] - Eine Sammlung von PrÃ¤paratoren, die die Microsoft-Office-Formate Word, Excel und Powerpoint prÃ¤parieren kÃ¶nnen. Diese PrÃ¤paratoren nutzen via [http://danadler.com/jacob/ Jacob] die COM-Schnittstelle der Office-Programme zur Extraktion. Sie haben damit eine sehr hohe Erfolgsquote, setzen jedoch ein Windows-System mit installiertem MS-Office voraus.

regain manual

Benutzer-Werkzeuge

Webseiten-Werkzeuge

Seiten-Werkzeuge