Benutzer-Werkzeuge

Webseiten-Werkzeuge


de:terminology

====== Unterschiede ====== Hier werden die Unterschiede zwischen zwei Versionen gezeigt.

Link zu dieser Vergleichsansicht

Nächste Überarbeitung
Vorhergehende Überarbeitung
de:terminology [2009/03/03 13:49]
127.0.0.1 Externe Bearbeitung
de:terminology [2024/09/18 08:31] (aktuell)
Zeile 1: Zeile 1:
 ====== Terminologie ====== ====== Terminologie ======
  
-This page lists short explanations of special terms regarding ​regain ​and search engines.+Diese Seite enthält Kurzbeschreibungen von Begriffen rund um regain ​und Suchmaschinen.
  
-== Partielle Indexierung == 
  
 +===== Analyzer =====
  
-Die Aktualisierung eines Suchindex mit dem Crawler ​muß nicht komplett für alle Datenquellen erfolgen. Dokumente auf bestimmten Netzlaufwerken / Dateiservern / Webseiten können beispielsweise stündlich aktualisiert werdenandere hingegen nur wöchentlich+Wenn der [[:​de:​components:​Crawler]] ein Dokument gefunden und seinen Text extrahiert hatdann speichert er diesen Text im [[:​de:​components:​search index|Suchindex]] mit Hilfe von [[:​de:​project_info:​used_libraries|Lucene]].
  
-== Stopword-Liste ==+Lucene extrahiert die einzelnen Wörter aus dem Text. Bevor das Wort dann in den Index kommt, wird es mit Hilfe eines **Analyzers** in seine Grundform gebracht. Dadurch liefert eine Suche nach ''​Baum''​ auch Dokumente, die das Wort ''​Bäume''​ enthalten.
  
-Die sprachabhängige **[http://​regain.murfman.de/​wiki/​en/​index.php/​CrawlerConfiguration.xml#​.3CstopwordList.3E_tag Stopword-Liste] in [[CrawlerConfiguration.xml#​.3CstopwordList.3E_tag|CrawlerConfiguration.xml]]** legt fest, welche Wörter ''​nicht''​ in den [[Suchindex]] aufgenommen werden. 
  
-[http://​de.wikipedia.org/​wiki/​Stoppwort Stoppworte] sind Wörter, die sehr häufig in den meisten Dokumenten/​Dateien ​vorkommen, aber nicht sinntragend sind. Die Aufnahme dieser Wörter würde nur den Index unnötig vergrößern und gleichzeitig keine Trennschärfe für die Suche liefern.+===== Partielle Indexierung ===== 
 + 
 +Die Aktualisierung eines Suchindex mit dem Crawler muß nicht komplett für alle Datenquellen erfolgen. Dokumente auf bestimmten Netzlaufwerken oder Webseiten können beispielsweise stündlich aktualisiert werden, andere hingegen nur wöchentlich. 
 + 
 + 
 +===== Stopword-Liste ===== 
 + 
 +Die **Stopword-Liste** legt fest, welche Wörter //nicht// im [[:​de:​components:​search index|Suchindex]] gespeichert werden sollen. [[http://​de.wikipedia.org/​wiki/​Stoppwort|Stoppworte]] sind Wörter, die sehr häufig in Texten ​vorkommen, aber nicht sinntragend sind. Die Aufnahme dieser Wörter würde nur den Index unnötig vergrößern und gleichzeitig keine Trennschärfe für die Suche liefern.
  
 Typische Stopwords können sein:  Typische Stopwords können sein: 
-;​[http://​de.wikipedia.org/​wiki/​Pr%C3%A4position ​Präpositionen/​Verhältniswörter]<​small>​ab, an, angesichts, anlässlich,​ anstatt, auf, aus, ausschließlich, außer, außerhalb, bei, betreffs, bezüglich, binnen, bis, bisauf, biszu, dank, demzufolge, diesseits, durch, einschließlich,​ entgegen, entlang, exklusive, fern, für, gegen, gegenüber, gegenzu, gemäß, halber, in, infolge, inklusive, innerhalb, kraft, laut, mangels, mit, mitsamt, mittels, nach, nach, nebst, ob, ohne, samt, seit, seitens, sondern, statt, trotz, über, um, unbeschadet,​ ungeachtet, unter, vermittels, vermöge, von, vor, während, wider, zu, zufolge, zunächst, zuwider, zuzüglich, zwecks, zwischen</​small>​ +  * Präpositionen:​ ab, an, außer, bei, bis, statt, trotz, von, vor..
-;[http://de.wikipedia.org/wiki/Pronomen ​Pronomina/​Fürwörter]<​small>​alle, dein, der, derjenige, derselbe, dich, dieser, du, einander, einer, er, es, euch, euer, ich, ihr, jemand, jener, keiner, man, mancher, mein, mich, sein, sich, sie, uns, unser, was, welcher, wer, weshalb, wir</​small>​ +  * Pronomen: alle, dein, der, dich, du, man, sie, ..
-;[http://de.wikipedia.org/​wiki/​Artikel_%28Wortart%29 bestimmte/​unbestimmte ​Artikel]<​small>​das,​ dem, den, der, desdie, ein, eine, einemeinen, einer, eines</​small>​ +  * Artikel: der, diedas, ein, eine, eines, ..
-;[http://de.wikipedia.org/​wiki/​Und_%28Konjunktion%29 ​Konjunktionen/​Bindeworte]<​small>​und, oder</small>+  * Konjunktionen:​ und, oder, ... 
 + 
 +Die Stopword-Liste wird im [[:​config:​CrawlerConfiguration.xml#​stopwordList tag|<stopwordList>-Tag]] der ''​CrawlerConfiguration.xml''​ angegeben.
  
de/terminology.1236084553.txt.gz · Zuletzt geändert: 2024/09/18 08:31 (Externe Bearbeitung)