Balayage de site

Balayeur de sites:  Télécharger toutes les pages web d'un domaine donné ou d'une URL de base.

Démarrer un balayage de site
URL de départ (doit commencer par
http:// https:// ftp:// smb:// file://)

empty
Lien vers une liste d'URLs
URL d'un plan de site

charger tous les fichiers du domaine
charger uniquement les fichiers contenu dans un sous-chemin de l'URL donnée
pas plus de documents

Indications

  • Limite de vitesse du balayage

    No more that four pages are loaded from the same host in one second (not more that 120 document per minute) to limit the load on the target server.
  • Répartisseur de charge

    Un second balayage sur un hôte différent augmente le débit jusqu'à un maximum de 240 documents par minute, puisque le balayeur équilibre la charge entre tous les hôtes.
  • Balayage à haute vitesse

    Un "balayage superficiel" non limité à un seul hôte (ou site) peut augmenter le nombre de pages par minutes (ppm) jusqu'à récolter un nombre illimité de documents par minute lorsque le nombre d'hôtes ciblés est élevé. Cela peut être effectué au moyen de cette servlet: démarrer un balayage expert.
  • Commande du planificateur

    Le planificateur de balayage peut être modifié ou supprimé au moyen de la commande de l'API.