====== Unterschiede ====== Hier werden die Unterschiede zwischen zwei Versionen gezeigt.
Nächste Überarbeitung | Vorhergehende Überarbeitung | ||
de:config:regular_expression [2009/03/03 13:49] 127.0.0.1 Externe Bearbeitung |
de:config:regular_expression [2024/09/18 08:32] (aktuell) |
||
---|---|---|---|
Zeile 1: | Zeile 1: | ||
- | Die [[Server:Konfiguration | regain-Konfiguration]] arbeitet sehr viel mit regulären Ausdrücken. **Reguläre Ausdrücke** (kurz: Regex) sind sehr mächtige Platzhalter (Wildcards) und eignen sich sehr gut dazu, Zeichenketten wie z.B. URLs zu beschreiben. | + | ====== Reguläre Ausdrücke ====== |
- | Wenn Sie mit dieser Technik noch nicht vertraut sind, dann finden Sie [http://de.selfhtml.org/perl/sprache/regexpr.htm hier eine Beschreibung]. Eine weitere etwas akademischere Beschreibung [http://de.wikipedia.org/wiki/Regul%C3%A4rer_Ausdruck ist hier zu finden]. Eine bessere aber englische Beschreibung finden Sie [http://en.wikipedia.org/wiki/Regular_expression hier]. Kürzere Einführungen finden Sie zu Hauf, wenn Sie nach ''regex'' googlen. | + | Die [[:de:config|regain-Konfiguration]] arbeitet sehr viel mit regulären Ausdrücken. **Reguläre Ausdrücke** (kurz: Regex) sind sehr mächtige Platzhalter (Wildcards) und eignen sich sehr gut dazu, Zeichenketten wie z.B. URLs zu beschreiben. |
+ | |||
+ | Wenn Sie mit dieser Technik noch nicht vertraut sind, dann finden Sie [[http://de.selfhtml.org/perl/sprache/regexpr.htm|hier eine Beschreibung]]. Eine weitere etwas akademischere Beschreibung ist [[http://de.wikipedia.org/wiki/Regul%C3%A4rer_Ausdruck|hier zu finden]]. Eine bessere aber englische Beschreibung finden Sie [[http://en.wikipedia.org/wiki/Regular_expression|hier]]. Kürzere Einführungen finden Sie zu Hauf, wenn Sie nach ''regex'' googlen. | ||
**Hinweis:** regain nutzt den Regex-Dialekt von Java, welcher der gleiche wie von Perl ist. | **Hinweis:** regain nutzt den Regex-Dialekt von Java, welcher der gleiche wie von Perl ist. | ||
- | **Achtung:** In den XML-Konfigurationsdateien [[CrawlerConfiguration.xml]] und [[SearchConfiguration.xml]] müssen alle XML-Zeichen wie ''&'', ''<'' oder ''>'' durch die entsprechenden Entities (''&amp;'', ''&lt;'' bzw. ''&gt;'') ersetzt werden! | + | **Achtung:** In den XML-Konfigurationsdateien [[:config:CrawlerConfiguration.xml]] und [[:config:SearchConfiguration.xml]] müssen alle XML-Zeichen wie ''&'', ''<'' oder ''>'' durch die entsprechenden Entities (''&'', ''<'' bzw. ''>'') ersetzt werden! |
- | **Beispiel:** Die Regex ''<a[^>]*>The&nbsp;link</a>'' muss folgendermaßen angegeben werden: ''&lt;a[^&gt;]*&lt;The&amp;nbsp;link&lt;/a&lt;''. (Das ist natürlich ein extremes Beispiel) | + | **Beispiel:** Die Regex ''<a[^>]*>The link</a>'' muss folgendermaßen angegeben werden: ''<a[^>]*<The&nbsp;link</a<''. (Das ist natürlich ein extremes Beispiel) |
===== Regex-Gruppen ===== | ===== Regex-Gruppen ===== | ||
Zeile 16: | Zeile 18: | ||
''Beispiel:'' | ''Beispiel:'' | ||
- | a(b(a(b|c)a)a(b|e)*)c - Nummer 0 | + | a(b(a(b|c)a)a(b|e)*)c - Nummer 0 |
- | (b(a(b|c)a)a(b|e)*) - Nummer 1 | + | (b(a(b|c)a)a(b|e)*) - Nummer 1 |
- | (a(b|c)a) - Nummer 2 | + | (a(b|c)a) - Nummer 2 |
- | (b|c) - Nummer 3 | + | (b|c) - Nummer 3 |
- | (b|e) - Nummer 4 | + | (b|e) - Nummer 4 |
+ | |||
+ | ===== Weblinks ===== | ||
+ | |||
+ | * Ein Online-Regex-Tester: http://www.regex-tester.de/regex.html | ||