Benutzer-Werkzeuge

Webseiten-Werkzeuge


de:config:regular_expression

====== Unterschiede ====== Hier werden die Unterschiede zwischen zwei Versionen gezeigt.

Link zu dieser Vergleichsansicht

Nächste Überarbeitung
Vorhergehende Überarbeitung
de:config:regular_expression [2009/03/03 13:49]
127.0.0.1 Externe Bearbeitung
de:config:regular_expression [2024/09/18 08:32] (aktuell)
Zeile 1: Zeile 1:
-Die [[Server:​Konfiguration | regain-Konfiguration]] arbeitet sehr viel mit regulären Ausdrücken. **Reguläre Ausdrücke** (kurz: Regex) sind sehr mächtige Platzhalter (Wildcards) und eignen sich sehr gut dazu, Zeichenketten wie z.B. URLs zu beschreiben.+====== ​Reguläre Ausdrücke ​======
  
-Wenn Sie mit dieser Technik noch nicht vertraut sind, dann finden Sie [http://​de.selfhtml.org/​perl/​sprache/​regexpr.htm hier eine Beschreibung]. Eine weitere etwas akademischere Beschreibung [http://​de.wikipedia.org/​wiki/​Regul%C3%A4rer_Ausdruck ​ist hier zu finden]. Eine bessere aber englische Beschreibung finden Sie [http://​en.wikipedia.org/​wiki/​Regular_expression hier]. Kürzere Einführungen finden Sie zu Hauf, wenn Sie nach ''​regex''​ googlen.+Die [[:​de:​config|regain-Konfiguration]] arbeitet sehr viel mit regulären Ausdrücken. **Reguläre Ausdrücke** (kurz: Regex) sind sehr mächtige Platzhalter (Wildcards) und eignen sich sehr gut dazu, Zeichenketten wie z.B. URLs zu beschreiben. 
 + 
 +Wenn Sie mit dieser Technik noch nicht vertraut sind, dann finden Sie [[http://​de.selfhtml.org/​perl/​sprache/​regexpr.htm|hier eine Beschreibung]]. Eine weitere etwas akademischere Beschreibung ​ist [[http://​de.wikipedia.org/​wiki/​Regul%C3%A4rer_Ausdruck|hier zu finden]]. Eine bessere aber englische Beschreibung finden Sie [[http://​en.wikipedia.org/​wiki/​Regular_expression|hier]]. Kürzere Einführungen finden Sie zu Hauf, wenn Sie nach ''​regex''​ googlen.
  
 **Hinweis:​** regain nutzt den Regex-Dialekt von Java, welcher der gleiche wie von Perl ist. **Hinweis:​** regain nutzt den Regex-Dialekt von Java, welcher der gleiche wie von Perl ist.
  
-**Achtung:​** In den XML-Konfigurationsdateien [[CrawlerConfiguration.xml]] und [[SearchConfiguration.xml]] müssen alle XML-Zeichen wie ''&​amp;'',​ ''​&lt;''​ oder ''​&gt;''​ durch die entsprechenden Entities (''&​amp;amp;'',​ ''&​amp;lt;''​ bzw. ''&​amp;gt;''​) ersetzt werden!+**Achtung:​** In den XML-Konfigurationsdateien [[:config:CrawlerConfiguration.xml]] und [[:config:SearchConfiguration.xml]] müssen alle XML-Zeichen wie ''&'',​ ''​<''​ oder ''​>''​ durch die entsprechenden Entities (''&​amp;'',​ ''&​lt;''​ bzw. ''&​gt;''​) ersetzt werden!
  
-**Beispiel:​** Die Regex ''<​a[^>​]*>​The&​amp;nbsp;​link</​a>''​ muss folgendermaßen angegeben werden: ''&​amp;lt;a[^&amp;gt;]*&amp;lt;The&amp;amp;​nbsp;​link&​amp;lt;/a&amp;lt;''​. (Das ist natürlich ein extremes Beispiel)+**Beispiel:​** Die Regex ''<​a[^>​]*>​The&​nbsp;​link</​a>''​ muss folgendermaßen angegeben werden: ''&​lt;​a[^&​gt;​]*&​lt;​The&​amp;​nbsp;​link&​lt;/​a&​lt;''​. (Das ist natürlich ein extremes Beispiel)
  
 ===== Regex-Gruppen ===== ===== Regex-Gruppen =====
Zeile 16: Zeile 18:
  
 ''​Beispiel:''​ ''​Beispiel:''​
- a(b(a(b|c)a)a(b|e)*)c ​  - Nummer 0 +  ​a(b(a(b|c)a)a(b|e)*)c ​  - Nummer 0 
-  (b(a(b|c)a)a(b|e)*) ​   - Nummer 1 +   ​(b(a(b|c)a)a(b|e)*) ​   - Nummer 1 
-    (a(b|c)a) ​           - Nummer 2 +     ​(a(b|c)a) ​           - Nummer 2 
-      (b|c)              - Nummer 3 +       ​(b|c)              - Nummer 3 
-              (b|e)      - Nummer 4+               ​(b|e)      - Nummer 4 
 + 
 +===== Weblinks ===== 
 + 
 +  * Ein Online-Regex-Tester:​ http://​www.regex-tester.de/​regex.html
  
de/config/regular_expression.1236084556.txt.gz · Zuletzt geändert: 2024/09/18 08:32 (Externe Bearbeitung)