iSquare Spider durchforsten Internetseiten, identifizieren Einzelbeiträge und übergeben diese mit vorgegebenen Informationen wie Quelle, Erscheinungstag und Autor an die semantische Textrecherche iSquare SmartSearch. Einen iSquare Spider gibt es zurzeit für folgende Quellen:
- Websites
- Foren
- Weblogs
- Suchmaschinen
- RSS-Feeds
- E-Mails
- Newsgruppen
Websites (iSquare Spider HTTP)
durchsucht eine definierte Liste von Websites nach neuen Texten und extrahiert diese zusammen mit den Metadaten (Quelle, Erscheinungstag, Autor u.ä.). Es können alle Seiten einer Website bis zu einer bestimmten Tiefe eingesammelt werden.
Foren (iSquare Spider Forum)
identifiziert aktuelle Einzelbeiträge in Internetforen und extrahiert Metadaten der Beiträge und speichert diese ab.
Weblogs oder Blogs (iSquare Spider Blog)
Ein Weblog oder Blog (ein Kunstwort aus "Web" und "Logbuch") ist eine Webseite, die periodisch neue Einträge enthält. Weblogs sind die persönlichen "Netztagebücher" ihrer Betreiber. Die neuesten Einträge und dazugehörigen Informationen werden an iSquare SmartSearch übergeben. Es besteht die Möglichkeit, nur Beiträge einzelner Tage zu erfassen (Teil einer HTML-Seite).
Suchmaschinen (iSquare Spider Suchmaschine)
übergibt einen oder diverse Suchbegriffe an mehrere Suchmaschinen, durchsucht und speichert die dort gefundenen Treffer ab. So können alle möglichen Treffer zu einer Suchanfrage erhalten werden.
RSS-Feeds (iSquare Spider RSS)
RSS ist ein Dateiformat für den XML-basierten Austausch von Nachrichten aller Art. Die auf diesem Weg verbreiteten Nachrichten von Internetportalen werden aufgenommen und an iSquare SmartSearch zur Weiterverarbeitung übergeben. Dabei können auch nur die bisher nicht erfassten Beiträge eingesammelt werden.
E-Mails (iSquare Spider Mail)
Beobachtet alle einkommenden Nachrichten einer oder mehrerer E-Mail-Konten.
Newsgruppen (iSquare Spider Newsgroup)
Beobachtet ca. 2000 deutschsprachige Newsgruppen und extrahiert die neuen Beiträge. Es können gezielt Beiträge aus bestimmten Threads erfasst werden.