====== Features ====== Diese Seite fasst die wichtigsten **Features** von regain zusammen. ===== Steckbrief ===== * **regain** ist eine anfrageorientierte, effiziente, weitgehend vom Betriebssystem unabhängige Suchmaschine. * Mit regain können große Datenmengen indiziert und dann in Sekundenbruchteilen durchsucht werden. * Es können Dateien (Text, HTML, XML, Excel, Powerpoint, Word, PDF, RTF, usw.) lokal, auf Netzlaufwerken oder Intranet-Servern sowie ganze HTTP-Webauftritte/Webserver durchsucht werden. * regain ist Open Source, damit kostenlos und unterliegt der [[http://de.wikipedia.org/wiki/LGPL|Lesser General Public License]] (LGPL) * Es gibt eine **Desktop-Variante** als stand alone-Programm für Arbeitsplatzrechner, sowie eine **Server-Variante**. Siehe: [[:de:project_info:variant_comparison]] * Das Aussehen der [[:components:search mask|Suchmaske]] ist beliebig anpassbar. * Für Anwender und Entwickler gibt es eine ausführliche [[http://regain.sourceforge.net/docs.php|Dokumentation]] * Das deutsch- bzw. englischsprachige [[http://forum.murfman.de/de/viewforum.php?f=13|Forum]] liefert Hilfe bei Problemen und Fragen. * regain ist flexibel, anpassbar und erweiterbar. * regain nutzt die mächtige [[http://lucene.apache.org/java/2_3_2/queryparsersyntax.html|Suchsyntax von Lucene]]. Damit lassen sich sehr gezielte Suchanfragen formulieren. ===== Die Suche ===== * Regain nutzt die mächtige Suchsyntax von Lucene. Damit ist es möglich, sehr genaue Suchanfragen zu stellen. Details siehe [[:de:usage:searching]]. * [[:de:features:advanced search]]: Definieren Sie Ihre Suchanfrage noch genauer, um bessere Treffer zu bekommen. * [[:de:features:multi_index_search]]: Durchsuchen sie über mehrere Indizes gleichzeitig. * URL-Rewriting: Damit können Dokumente z.B. von ''file://c:/www-data/intranet/docs'' indiziert und im Browser als ''http://intranet.murfman.de/docs'' angezeigt werden. * [[:de:features:file-to-http-bridge]]: Stellt die Dateien, die im Index sind, über das http-Protokoll zur Verfügung. ===== Festlegung des Suchraums ===== Mit regain können Sie sehr genau festlegen, was wann in den [[:de:components:search index|Suchindex]] kommen soll und was nicht. * [[:de:features:white and black list]]: Durch eine White List und eine Black List läßt sich der aufzubereitende Suchraum genau eingrenzen. * Mehrere Datenquellen pro Index: Ein Suchindex kann Dokumente von verschiedenen Dateisystemen und / oder Webseiten enthalten. * Partielle Indexierung: Die Aktualisierung eines Suchindex kann für die verschiedenen Datenquellen zu unterschiedlichen Zeitpunkten erfolgen. ===== Indexierung ===== * Hot-Deployment: Der Suchindex kann im laufenden Betrieb erweitert oder gewechselt werden - ohne Neustart des Servers. * [[:de:terminology#Stopword-Liste]]: Bestimmen Sie Worte, die nicht indexiert werden sollen. * [[:de:features:analysis files]]: Lassen Sie sich alle Zwischenschritte der Indexierung in Dateien ausgeben. * Content-Extraktion für HTML: Indexieren Sie bei Ihren HTML-Dokumenten nur den eigentlichen Inhalt, ohne Navigation und Fußleiste. * Pfad-Extraktion für HTML: Zeigen Sie den Navigationspfad Ihrer HTML-Seiten bei den Suchergebnissen. * Erkennung von Dead Links: Quasi als Abfallprodukt werden alle gefundenen Dead Links (also Links auf nicht mehr vorhandene Dokumente) ausgegeben. * [[:de:features:breakpoint]]: Der [[:de:components:Crawler]] kopiert während der Indexierung regelmäßig den aktuellen Stand des [[:de:components:search index|Suchindex]] in ein gesondertes Verzeichnis. Bricht die Indexierung ab, kann der Crawler auf dem letzten Breakpoint aufsetzen. * [[:de:features:auxiliary fields]]: Der Index kann um weitere Indexfelder erweitert werden. ===== Erweiterbarkeit und Anpassung ===== * [[:de:components:preparator|Präparatoren]]: Sie übernehmen die Aufbereitung und Extrahierung von Texten/Informationen aus den verschiedenen Dateiformaten. * TagLibrary für die Suche: Hiermit ist die Anpassung der [[:de:components:search mask|Suchmaske]] an Ihr Design besonders einfach. * [[:de:config|Konfigurierbarkeit]]: regain ist weitgehend anpassbar. * [[:de:features:access rights management]]: Es sorgt dafür, dass ein Benutzer nur Treffer für Dokumente erhält, für die er auch Leserechte hat.