regain manual

====== Unterschiede ====== Hier werden die Unterschiede zwischen zwei Versionen gezeigt.

--- de:components:search_index [2009/03/03 13:49]
127.0.0.1 Externe Bearbeitung
+++ de:components:search_index [2024/09/18 08:32] (aktuell)
@@ Zeile 1: / Zeile 1: @@
-ï»¿Im **Suchindex** werden die Daten Ã¼ber die Dokumente so gespeichert, dass bei einer [[Suchmaske|Suche]] schnell die Dokumente gefunden werden, die ein bestimmtes Stichwort enthalten. Dank des geschickten Aufbaus des Suchindex, ist eine Suche Ã¼ber viele tausend Dokumente in Sekundenbruchteilen durchfÃ¼hrbar.
+====== Der Suchindex ======
-regain setzt zur [[Crawler|Erstellung]] und fÃ¼r die [[Suchmaske|Suche]] auf dem Suchindex [http://lucene.apache.org **Lucene**] ein. Lucene speichert die Daten Ã¼ber ein Dokument klassifiziert in getrennten Feldern. Bei der Sucheanfrage kann so entschieden werden, welche Felder durchsucht werden sollen.
+Im **Suchindex** werden die Daten über die Dokumente so gespeichert, dass bei einer [[search mask|Suche]] schnell die Dokumente gefunden werden, die ein bestimmtes Stichwort enthalten. Dank des geschickten Aufbaus des Suchindex, ist eine Suche über viele tausend Dokumente in Sekundenbruchteilen durchführbar.
-<small>Via [http://search.blogger.com/?as_q=lucene+terracotta&ie=UTF-8&ui=blg&bl_url=orionl.blogspot.com&x=0&y=0 Clustering Lucene] sind auch extreme DatenbestÃ¤nde hocheffizient verwaltbar!</small>
+regain setzt zur [[crawler|Erstellung]] und für die [[search mask|Suche]] auf dem Suchindex [[http://lucene.apache.org|Lucene]] ein. Lucene speichert die Daten über ein Dokument klassifiziert in getrennten Feldern. Bei der Suchanfrage kann so entschieden werden, welche Felder durchsucht werden sollen.((Via [[http://search.blogger.com/?as_q=lucene+terracotta&ie=UTF-8&ui=blg&bl_url=orionl.blogspot.com&x=0&y=0|Clustering Lucene]] sind auch extreme Datenbestände hocheffizient verwaltbar!))
 Eine Suche nach "''regain extension:pdf''" sucht beispielsweise nach ''regain'' in den Standardfeldern sowie nach ''pdf'' im Feld ''extension''.
-Welche Felder standardmÃ¤Ãig durchsucht werden, wird in der Datei [[SearchConfiguration.xml]] im ''searchFieldList''-Tag eingestellt. StandardmÃ¤Ãig sind das die Felder ''content'', ''title'' und ''headlines''.
+Welche Felder standardmäßig durchsucht werden, wird in der Datei [[:config:SearchConfiguration.xml]] im ''searchFieldList''-Tag eingestellt. Standardmäßig sind das die Felder ''content'', ''title'' und ''headlines''.
 ===== Standardfelder =====
@@ Zeile 12: / Zeile 14: @@
 regain legt folgende Standardfelder an:
   * ''url'' - Die URL des Dokuments.
-  * ''content'' - Der von den [[PrÃ¤parator]]en extrahierte Text des Dokuments.
+  * ''content'' - Der von den [[preparator|Präparatoren]] extrahierte Text des Dokuments.
-  * ''title'' - Der Titel des Dokuments (wenn der zustÃ¤ndige PrÃ¤parator einen Titel extrahieren konnte).
+  * ''title'' - Der Titel des Dokuments (wenn der zuständige Präparator einen Titel extrahieren konnte).
   * ''summary'' - Die Zusammenfassung, die in der Trefferliste gezeigt wird.
-  * ''headlines'' - Ãberschriften (die im Dokument gefunden wurden).
+  * ''headlines'' - Überschriften (die im Dokument gefunden wurden).
-  * ''size'' - Die GrÃ¶Ãe des Dokuments in Bytes (kann nicht durchsucht werden).
+  * ''size'' - Die Größe des Dokuments in Bytes (kann nicht durchsucht werden).
-  * ''last-modified'' - Das Datum der letzten Ãnderung im Format ''JJJJ-MM-TT SS:MM'' (kann nicht durchsucht werden).
+  * ''last-modified'' - Das Datum der letzten Änderung im Format ''JJJJ-MM-TT SS:MM'' (kann nicht durchsucht werden).
-  * ''path'' - Der Navigationspfad zum Dokument. Siehe [[Pfad-Extraktion fÃ¼r HTML]].
+  * ''path'' - Der Navigationspfad zum Dokument.
-  * ''groups'' - Die Benutzergruppen, die das Dokument lesen dÃ¼rfen. (Nur bei aktiviertem [[Zugriffsrechte-Management]]).
+  * ''groups'' - Die Benutzergruppen, die das Dokument lesen dürfen. (Nur bei aktiviertem [[:de:features:access rights management|Zugriffsrechte-Management]]).
-  * [[Zusatzfelder|Weitere Felder kÃ¶nnen hinzugefÃ¼gt werden]]. So wird in der Default-Konfiguration das Feld ''extension'' fÃ¼r die Dateiendung hinzugefÃ¼gt(z.B. ''pdf'').
+  * [[:de:features:auxiliary fields|Weitere Felder können hinzugefügt werden]]. So wird in der Default-Konfiguration das Feld ''extension'' für die Dateiendung hinzugefügt(z.B. ''pdf'').
 Wichtig:
-  * Bei Fehlern wÃ¤hrend der [[PrÃ¤parator|Textextraktion]] wird kein Feld ''content'' angelegt, sondern stattdessen ein Feld ''preparation-error'' mit dem Wert ''true''.
+  * Bei Fehlern während der [[preparator|Textextraktion]] wird kein Feld ''content'' angelegt, sondern stattdessen ein Feld ''preparation-error'' mit dem Wert ''true''.
-  * Die FÃ¤higkeiten der beim [[Crawler|Indizieren]] genutzten [[PrÃ¤parator]]en bestimmen, was letztendlich in die Standardfelder ''content'', ''title'' und ''headlines'' eingetragen wird!
+  * Die Fähigkeiten der beim [[crawler|Indizieren]] genutzten [[preparator|Präparatoren]] bestimmen, was letztendlich in die Standardfelder ''content'', ''title'' und ''headlines'' eingetragen wird!
-  * Mit [http://www.dotlucene.net/documentation/ToolforAnalyzingLuceneInd.html lukeall] bzw. [http://www.getopt.org/luke/ Lucene Index Toolbox] kann man den Index detailliert untersuchen.
+  * Mit [[http://www.dotlucene.net/documentation/ToolforAnalyzingLuceneInd.html|lukeall]] bzw. [[http://www.getopt.org/luke/|Lucene Index Toolbox]] kann man den Index detailliert untersuchen.
@@ Zeile 33: / Zeile 35: @@
 regain nutzt die folgenden Unterverzeichnisse:
-  * ''temp'' - Ein Index in diesem Verzeichnis wird gerade vom [[Crawler]] verÃ¤ndert.
+  * ''temp'' - Ein Index in diesem Verzeichnis wird gerade vom [[Crawler]] verändert.
-  * ''breakpoint'' - In regelmÃ¤Ãigen ZeitabstÃ¤nden erzeugt der Crawler [[Breakpoint]]s. Falls der Crawler beendet wird, bevor der neue Index fertiggestellt wurde (z.B. beim Herunterfahren des Rechners), dann kann er beim nÃ¤chsten Start beim letzten Breakpoint fortfahren und muss nicht von vorne beginnen.
+  * ''breakpoint'' - In regelmäßigen Zeitabständen erzeugt der Crawler [[:de:features:Breakpoint]]s. Falls der Crawler beendet wird, bevor der neue Index fertiggestellt wurde (z.B. beim Herunterfahren des Rechners), dann kann er beim nächsten Start beim letzten Breakpoint fortfahren und muss nicht von vorne beginnen.
-  * ''new'' - Sobald der Crawler den Index fertiggestellt hat, benennt er das Verzeichnis nach ''new'' um. Dieses Verzeichnis stellt die Schnittstelle zwischen [[Crawler]] und [[Suchmaske]] dar. Die Suchmaske prÃ¼ft regelmÃ¤Ãig, ob es im Indexverzeichnis einen Index im Status ''new'' gibt. Sobald sie einen solchen Index findet, wechselt sie zu diesem Index, d.h. sie nennt das Verzeichnis nach ''index'' um. Auf diese Weise ist das [[Hot Deployment]] umgesetzt.
+  * ''new'' - Sobald der Crawler den Index fertiggestellt hat, benennt er das Verzeichnis nach ''new'' um. Dieses Verzeichnis stellt die Schnittstelle zwischen [[Crawler]] und [[search mask|Suchmaske]] dar. Die Suchmaske prüft regelmäßig, ob es im Indexverzeichnis einen Index im Status ''new'' gibt. Sobald sie einen solchen Index findet, wechselt sie zu diesem Index, d.h. sie nennt das Verzeichnis nach ''index'' um. Auf diese Weise ist das **Hot Deployment** umgesetzt.
-  * ''quarantine'' - Falls der Crawler einen Index fertiggestellt hat, dabei jedoch sehr viele Fehler hatte, dann bekommt dieser Index nicht den Status ''new'', sondern ''quarantine''. Auf diese Weise wechselt die [[Suchmaske]] nicht automatisch auf den fehlerhaften Index. In einem solchen Fall sollten Sie [[Wie man die Fehlerursache findet|die Log-Datei prÃ¼fen]] und, wenn Sie auf den Index wechseln wollen, das Verzeichnis nach ''new'' umbenennen.
+  * ''quarantine'' - Falls der Crawler einen Index fertiggestellt hat, dabei jedoch sehr viele Fehler hatte, dann bekommt dieser Index nicht den Status ''new'', sondern ''quarantine''. Auf diese Weise wechselt die [[search mask|Suchmaske]] nicht automatisch auf den fehlerhaften Index. In einem solchen Fall sollten Sie [[:de:config:howto_find_error_cause|die Log-Datei prüfen]] und, wenn Sie auf den Index wechseln wollen, das Verzeichnis nach ''new'' umbenennen.
   * ''index'' - Dieser Index wird momentan von der Suchmaske verwendet.
-  * ''backup'' - Bevor die Suchmaske auf einen neuen Index wechselt, benennt sie den alten Index nach ''backup'' um. Falls ein neu erstellter Index fehlerhaft sein sollte, kÃ¶nnen Sie schnell wieder auf den vorigen Index gewechselt werden, indem Sie das Verzeichnis ''backup'' nach ''new'' umbenennen.
+  * ''backup'' - Bevor die Suchmaske auf einen neuen Index wechselt, benennt sie den alten Index nach ''backup'' um. Falls ein neu erstellter Index fehlerhaft sein sollte, können Sie schnell wieder auf den vorigen Index gewechselt werden, indem Sie das Verzeichnis ''backup'' nach ''new'' umbenennen.

regain manual

Benutzer-Werkzeuge

Webseiten-Werkzeuge

Seiten-Werkzeuge