Un crawler, également appelé « spider » ou robot, est un logiciel qui explore systématiquement le World Wide Web, généralement dans le but de l’indexer.
Les moteurs de recherche tels que Google et certains autres types de sites utilisent l’exploration du Web pour mettre à jour leur contenu Web ou les index du contenu Web d’autres sites.
Les crawlers créent une copie des pages web pour être traitées par un moteur de recherche, qui indexe les pages téléchargées afin que les utilisateurs puissent effectuer des recherches plus efficaces.
Le nombre de pages Internet est extrêmement important ; même les plus gros crawlers ne peuvent pas réaliser un index complet.
C’est pourquoi les moteurs de recherche ont eu du mal à fournir des résultats de recherche pertinents dans les premières années du World Wide Web, avant 2000.
Aujourd’hui, les résultats pertinents sont fournis presque instantanément.
Les crawlers peuvent valider les hyperliens et le code HTML.