Benutzer-Werkzeuge

Webseiten-Werkzeuge


de:howto:using_black_list

====== Unterschiede ====== Hier werden die Unterschiede zwischen zwei Versionen gezeigt.

Link zu dieser Vergleichsansicht

Nächste Überarbeitung
Vorhergehende Überarbeitung
de:howto:using_black_list [2009/03/05 20:59]
127.0.0.1 Externe Bearbeitung
de:howto:using_black_list [2024/09/18 08:32] (aktuell)
Zeile 1: Zeile 1:
-Texte der Seitennavigation aus dem regain-Index ausschließen ​=+====== How-To: Webseiten ohne Seitennavigation indizieren ======
  
-==Ziele==+FIXME: In diesem How-To werden drei Probleme und drei Lösungen sehr durcheinander beschrieben. Dies sollte klarer formuliert und die Lösung dann getrennt gezeigt werden - am besten an Hand von Beispielen.
  
-  - bei der Erstellung des regain-Indexes die Besonderheiten der einzelnen Bereiche einer Website berücksichtigen +===== Ziele =====
-#die Index-aktualisierung effizient implementieren +
-==Angaben zur Website== +
-die Website, die mit regain indexiert wird, hat folgende Besonderheiten:​ +
-#einige Projekte bestehen aus Webseiten, die eine Art pseudo-frameartige Struktur (pseudoFrame) haben (in einer''​dateiXY.**htm**''​ sind eigentliche Seiteninhalte abgelegt und sind jeweils mittels in ''​dateiXY.**asp**''​ enthaltenen '​include=dateiXY.''​htm''​ -Anweisungen eingebunden. Die ASP's beinhalten außerdem seitenbezogene Navigationsleisten,​ die nicht zu indexieren sind) +
-#andere Projekte beinhalten entweder echte Framestrukturen (echteFrames) +
-#dann gibt es noch ganz normale HTML-Seiten (easyHTML) +
-#viele der unter 1. aufgeführten Dokumente werden nochmal im PDF-Format als Druckversion im Webprojekt verlinkt +
-#andere Dokumente dagegen werden ausschließlich im PDF-Format veröffentlicht+
  
-==Lösungsansätze== +  ​Bei der Erstellung des [[:de:components:search ​index|Suchindex]] die Besonderheiten der einzelnen Bereiche einer Website berücksichtigenEs soll nur der eigentliche Inhalt ​indiziert werden, nicht die Navigationslinks oder dir Fußleiste. 
-  ​die in jeder Webseite enthaltene Texte in Menüs ​der linken Spalte und der horizontalen Top-Navigation nicht im regain-Index erfassen +  - Die Index-aktualisierung effizient implementieren
-#Für die unter 1. aufgeführte Webseiten bietet sich an, nur über die dateiXY.''​htm''​ den regain-Crawler loslassen. Damit linke Navigationsspalte und die horizontale Top-Navigation in den gefundene Treffern korrekt, mit den Navigationsleisten angezeigt werden, im regain-Index ''​.htm''​-Endungen durch ''​.asp''​ ersetzen.  +
-#die Dokumente, die als HTM und PDF vorliegen, werden nur einmal indiziert +
-#unter 2. und 3. aufgeführte Webprojekte werden webbasiert mit regain-Standardlösung indiziert +
-==die Lösung== +
-es werden mehrere regain-Indexe erstellt: +
-#alle HTML-Webseiten in '​pseudoFrame'​-Projekten,​ die .htm-Endung haben, werden im Dateisystem in den Index übernommen und dann  werden .htm's durch .asp ersetzt - realisierbar mit der Methode ''​createDocument''​ (Klasse net.sf.regain.crawler.document.DocumentFactory) und der file:///​-Präfix wird mit [http://​regain.murfman.de/​wiki/​en/​index.php/​SearchConfiguration.xml#​.3CrewriteRules.3E_tag rewriteRules] durch http:// ersetzt. (s. Auch [http://​forum.murfman.de/​de/​viewtopic.php?​t=171 Dateiendungen bei der Indexerstellung manipulieren]) +
-#Dokumente, die nur im PDF-Format angeboten werden, werden mit Hilfe von [http://​regain.murfman.de/​wiki/​en/​index.php/​CrawlerConfiguration.xml#​.3Cwhitelist.3E_tag whitelist] , [http://​regain.murfman.de/​wiki/​en/​index.php/​CrawlerConfiguration.xml#​.3Cblacklist.3E_tag blacklistund [http://​regain.murfman.de/​wiki/​en/​index.php/​CrawlerConfiguration.xml#​.3CurlPattern.3E_tag urlPattern]-Tag (\.pdf) in einem separaten Index erfasst +
-#'​echteFrames'​ und '​easyHTML'​-Webprojekte werden webbasiert mit der regain-Standard-Lösung mit urlPattern-Wert ''​\.htm'' ​indiziert +
-diese Indizes ​werden ​dann in der [[SearchConfiguration.xml]] in die regain-Suche eingebunden+
  
-==elegante ​Lösung mit Ant-Framework== + 
-setzt voraus, dass für die oben beschriebene regain-Versionen (z.B. mit der modifzierten ''​createDocument''​-Methode) ein Ant-Projekt mit dem target-Element +===== Angaben zur Website ===== 
- <​target name="​index-aktualisieren">​+ 
 +Website können folgende Strukturen haben: 
 + 
 +  - Einige Webseiten haben eine Art pseudo-frameartige Struktur (Pseudo-Frame):​ In einer ''​dateiXY.**htm**''​ sind eigentliche Seiteninhalte abgelegt und sind jeweils mittels in ''​dateiXY.**asp**''​ enthaltenen ''​include=dateiXY.htm''​-Anweisungen eingebunden. Die ASP's beinhalten außerdem seitenbezogene Navigationsleisten,​ die nicht zu indexieren sind. 
 +  - Andere Webseiten beinhalten echte Framestrukturen (echte Frames). 
 +  - Dann gibt es noch ganz normale HTML-Seiten (easyHTML) 
 + 
 +Viele der unter 1. aufgeführten Dokumente werden nochmal im PDF-Format als Druckversion im Webprojekt verlinkt. 
 + 
 +Andere Dokumente dagegen werden ausschließlich im PDF-Format veröffentlicht. 
 + 
 + 
 +===== Lösungsansätze ===== 
 + 
 +  * Die in jeder Webseite enthaltene Texte in Menüs der linken Spalte und der horizontalen Top-Navigation nicht im regain-Index erfassen. 
 +  * Für die unter 1. aufgeführte Webseiten bietet sich an, nur über die ''​dateiXY.htm''​ den regain-Crawler loslassen. Damit linke Navigationsspalte und die horizontale Top-Navigation in den gefundene Treffern korrekt, mit den Navigationsleisten angezeigt werden, im regain-Index ''​.htm''​-Endungen durch ''​.asp''​ ersetzen. 
 +  * Die Dokumente, die als HTM und PDF vorliegen, werden nur einmal indiziert. 
 +  * Unter 2. und 3. aufgeführte Webprojekte werden webbasiert mit regain-Standardlösung indiziert. 
 + 
 +===== Die Lösung ===== 
 + 
 +Es werden mehrere regain-Indizes erstellt: 
 + 
 +  - Alle HTML-Webseiten in '​pseudoFrame'​-Projekten,​ die .htm-Endung haben, werden im Dateisystem in den Index übernommen und dann  werden ''​.htm'''​s durch ''​.asp''​ ersetzt - realisierbar mit der Methode ''​createDocument''​ (Klasse ''​net.sf.regain.crawler.document.DocumentFactory''​) und dem ''<​nowiki>​file:///</​nowiki>''​-Präfix wird mit [[:​config:​SearchConfiguration.xml#​rewriteRules tag|rewriteRules]] durch ''<​nowiki>​http://</​nowiki>''​ ersetzt. Siehe auch im Forum: [[http://​forum.murfman.de/​de/​viewtopic.php?​t=171|Dateiendungen bei der Indexerstellung manipulieren]] 
 + 
 +  - Dokumente, die nur im PDF-Format angeboten werden, werden mit Hilfe der [[:​de:​features:​white and black list|White-List und Black-Liste]] und dem [[:​config:​CrawlerConfiguration.xml#​urlPattern tag|urlPattern-Tag]] (''​\.pdf''​) in einem separaten Index erfasst. 
 + 
 +  - 'echte Frames'​ und 'easy HTML'​-Webseiten werden webbasiert mit der regain-Standard-Lösung mit urlPattern-Wert ''​\.htm''​ indiziert. 
 + 
 +Diese Indizes werden dann in der [[:​config:​SearchConfiguration.xml]] in die regain-Suche eingebunden. 
 + 
 + 
 +===== Elegante ​Lösung mit Ant-Framework ===== 
 + 
 +Setzt voraus, dass für die oben beschriebene regain-Versionen (z.B. mit der modifzierten ''​createDocument''​-Methode) ein Ant-Projekt mit dem target-Element
 + 
 +<code xml> 
 +<target name="​index-aktualisieren">​
   <exec executable="​pseudoFrameIndex.bat"/>​   <exec executable="​pseudoFrameIndex.bat"/>​
   <exec executable="​PDFDocsIndex.bat"/>​   <exec executable="​PDFDocsIndex.bat"/>​
   <exec executable="​easyHTMLundechteFramesIndex.bat"/>​   <exec executable="​easyHTMLundechteFramesIndex.bat"/>​
- </​target>​+</​target>​ 
 +</​code>​ 
 erstellt wird. In der ''​pseudoFrameIndex.bat''​ wird mit  erstellt wird. In der ''​pseudoFrameIndex.bat''​ wird mit 
- ​%Java_Home%\bin\java -jar regainpseudoFrame-crawler.jar -config CrawlerConfiguration''​XX''​.xml+ 
 +  ​%Java_Home%\bin\java -jar regainpseudoFrame-crawler.jar -config CrawlerConfiguration''​XX''​.xml 
 eine Crawler-Instanz mit der angepassten ''​createDocument''​ gestartet. Alle drei Crawler-Instanzen,​ die mit den ''​exec''​-Tasks gestartet werden, haben jeweils eine eigene ''​CrawlerConfiguration**XX**.xml'',​ die beim Start eine Crawler-Instanz mit der angepassten ''​createDocument''​ gestartet. Alle drei Crawler-Instanzen,​ die mit den ''​exec''​-Tasks gestartet werden, haben jeweils eine eigene ''​CrawlerConfiguration**XX**.xml'',​ die beim Start
- ​%Java_Home%\bin\java -jar regain-crawler.jar -config CrawlerConfiguration''​XX''​.xml 
-mitgegeben wird 
-. Ich bilde mir ein, dass es möglich ist, dass ''​regainpseudoFrame-crawler.jar''​ und ''​regain-crawler.jar''​ in einem Ordner gespeichert werden, auf ein gemeinsames Verzeichnis '​preparator'​ zugreifen und diese drei Ant-Tasks parallel laufen können. 
  
 +  %Java_Home%\bin\java -jar regain-crawler.jar -config CrawlerConfiguration''​XX''​.xml
 +
 +mitgegeben wird.
 +
 +Ich bilde mir ein, dass es möglich ist, dass ''​regainpseudoFrame-crawler.jar''​ und ''​regain-crawler.jar''​ in einem Ordner gespeichert werden, auf ein gemeinsames Verzeichnis '​preparator'​ zugreifen und diese drei Ant-Tasks parallel laufen können.
 +
 +
 +**Autor:** itebob
de/howto/using_black_list.1236283175.txt.gz · Zuletzt geändert: 2024/09/18 08:32 (Externe Bearbeitung)