====== Terminologie ====== Diese Seite enthält Kurzbeschreibungen von Begriffen rund um regain und Suchmaschinen. ===== Analyzer ===== Wenn der [[:de:components:Crawler]] ein Dokument gefunden und seinen Text extrahiert hat, dann speichert er diesen Text im [[:de:components:search index|Suchindex]] mit Hilfe von [[:de:project_info:used_libraries|Lucene]]. Lucene extrahiert die einzelnen Wörter aus dem Text. Bevor das Wort dann in den Index kommt, wird es mit Hilfe eines **Analyzers** in seine Grundform gebracht. Dadurch liefert eine Suche nach ''Baum'' auch Dokumente, die das Wort ''Bäume'' enthalten. ===== Partielle Indexierung ===== Die Aktualisierung eines Suchindex mit dem Crawler muß nicht komplett für alle Datenquellen erfolgen. Dokumente auf bestimmten Netzlaufwerken oder Webseiten können beispielsweise stündlich aktualisiert werden, andere hingegen nur wöchentlich. ===== Stopword-Liste ===== Die **Stopword-Liste** legt fest, welche Wörter //nicht// im [[:de:components:search index|Suchindex]] gespeichert werden sollen. [[http://de.wikipedia.org/wiki/Stoppwort|Stoppworte]] sind Wörter, die sehr häufig in Texten vorkommen, aber nicht sinntragend sind. Die Aufnahme dieser Wörter würde nur den Index unnötig vergrößern und gleichzeitig keine Trennschärfe für die Suche liefern. Typische Stopwords können sein: * Präpositionen: ab, an, außer, bei, bis, statt, trotz, von, vor... * Pronomen: alle, dein, der, dich, du, man, sie, ... * Artikel: der, die, das, ein, eine, eines, ... * Konjunktionen: und, oder, ... Die Stopword-Liste wird im [[:config:CrawlerConfiguration.xml#stopwordList tag|<stopwordList>-Tag]] der ''CrawlerConfiguration.xml'' angegeben.