====== Unterschiede ====== Hier werden die Unterschiede zwischen zwei Versionen gezeigt.
Nächste Überarbeitung | Vorhergehende Überarbeitung | ||
de:terminology [2009/03/03 13:49] 127.0.0.1 Externe Bearbeitung |
de:terminology [2024/09/18 08:31] (aktuell) |
||
---|---|---|---|
Zeile 1: | Zeile 1: | ||
====== Terminologie ====== | ====== Terminologie ====== | ||
- | This page lists short explanations of special terms regarding regain and search engines. | + | Diese Seite enthält Kurzbeschreibungen von Begriffen rund um regain und Suchmaschinen. |
- | == Partielle Indexierung == | ||
+ | ===== Analyzer ===== | ||
- | Die Aktualisierung eines Suchindex mit dem Crawler muß nicht komplett für alle Datenquellen erfolgen. Dokumente auf bestimmten Netzlaufwerken / Dateiservern / Webseiten können beispielsweise stündlich aktualisiert werden, andere hingegen nur wöchentlich. | + | Wenn der [[:de:components:Crawler]] ein Dokument gefunden und seinen Text extrahiert hat, dann speichert er diesen Text im [[:de:components:search index|Suchindex]] mit Hilfe von [[:de:project_info:used_libraries|Lucene]]. |
- | == Stopword-Liste == | + | Lucene extrahiert die einzelnen Wörter aus dem Text. Bevor das Wort dann in den Index kommt, wird es mit Hilfe eines **Analyzers** in seine Grundform gebracht. Dadurch liefert eine Suche nach ''Baum'' auch Dokumente, die das Wort ''Bäume'' enthalten. |
- | Die sprachabhängige **[http://regain.murfman.de/wiki/en/index.php/CrawlerConfiguration.xml#.3CstopwordList.3E_tag Stopword-Liste] in [[CrawlerConfiguration.xml#.3CstopwordList.3E_tag|CrawlerConfiguration.xml]]** legt fest, welche Wörter ''nicht'' in den [[Suchindex]] aufgenommen werden. | ||
- | [http://de.wikipedia.org/wiki/Stoppwort Stoppworte] sind Wörter, die sehr häufig in den meisten Dokumenten/Dateien vorkommen, aber nicht sinntragend sind. Die Aufnahme dieser Wörter würde nur den Index unnötig vergrößern und gleichzeitig keine Trennschärfe für die Suche liefern. | + | ===== Partielle Indexierung ===== |
+ | |||
+ | Die Aktualisierung eines Suchindex mit dem Crawler muß nicht komplett für alle Datenquellen erfolgen. Dokumente auf bestimmten Netzlaufwerken oder Webseiten können beispielsweise stündlich aktualisiert werden, andere hingegen nur wöchentlich. | ||
+ | |||
+ | |||
+ | ===== Stopword-Liste ===== | ||
+ | |||
+ | Die **Stopword-Liste** legt fest, welche Wörter //nicht// im [[:de:components:search index|Suchindex]] gespeichert werden sollen. [[http://de.wikipedia.org/wiki/Stoppwort|Stoppworte]] sind Wörter, die sehr häufig in Texten vorkommen, aber nicht sinntragend sind. Die Aufnahme dieser Wörter würde nur den Index unnötig vergrößern und gleichzeitig keine Trennschärfe für die Suche liefern. | ||
Typische Stopwords können sein: | Typische Stopwords können sein: | ||
- | ;[http://de.wikipedia.org/wiki/Pr%C3%A4position Präpositionen/Verhältniswörter]: <small>ab, an, angesichts, anlässlich, anstatt, auf, aus, ausschließlich, außer, außerhalb, bei, betreffs, bezüglich, binnen, bis, bisauf, biszu, dank, demzufolge, diesseits, durch, einschließlich, entgegen, entlang, exklusive, fern, für, gegen, gegenüber, gegenzu, gemäß, halber, in, infolge, inklusive, innerhalb, kraft, laut, mangels, mit, mitsamt, mittels, nach, nach, nebst, ob, ohne, samt, seit, seitens, sondern, statt, trotz, über, um, unbeschadet, ungeachtet, unter, vermittels, vermöge, von, vor, während, wider, zu, zufolge, zunächst, zuwider, zuzüglich, zwecks, zwischen</small> | + | * Präpositionen: ab, an, außer, bei, bis, statt, trotz, von, vor... |
- | ;[http://de.wikipedia.org/wiki/Pronomen Pronomina/Fürwörter]: <small>alle, dein, der, derjenige, derselbe, dich, dieser, du, einander, einer, er, es, euch, euer, ich, ihr, jemand, jener, keiner, man, mancher, mein, mich, sein, sich, sie, uns, unser, was, welcher, wer, weshalb, wir</small> | + | * Pronomen: alle, dein, der, dich, du, man, sie, ... |
- | ;[http://de.wikipedia.org/wiki/Artikel_%28Wortart%29 bestimmte/unbestimmte Artikel]: <small>das, dem, den, der, des, die, ein, eine, einem, einen, einer, eines</small> | + | * Artikel: der, die, das, ein, eine, eines, ... |
- | ;[http://de.wikipedia.org/wiki/Und_%28Konjunktion%29 Konjunktionen/Bindeworte]: <small>und, oder</small> | + | * Konjunktionen: und, oder, ... |
+ | |||
+ | Die Stopword-Liste wird im [[:config:CrawlerConfiguration.xml#stopwordList tag|<stopwordList>-Tag]] der ''CrawlerConfiguration.xml'' angegeben. | ||