• Temps de lecture :13 mins read

Vous possédez un site Internet et souhaitez améliorer sa visibilité ? La première évidence est de le référencer !

Mais comment ça fonctionne ? Je vous explique tout !

L’évolution des moteurs de recherche

Les moteurs de recherche ont beaucoup évolué depuis leur création. À l’origine, ils étaient bien différents d’aujourd’hui.

1990 à 1994 : Les précurseurs

À l’origine, on ne peut pas parler de moteur de recherche mais plutôt d’annuaires.

1990 – Archie : Premier outil de recherche sur Internet, créé par Alan Emtage (Université McGill).
Il recherche dans les noms de fichiers FTP
Ce n’est pas un moteur de recherche wex mais un annuaire de fichiers

1991 – Gopher par l’Université du Minnesota
Recherche de documents textuels via un protocole concurrent du HTTP.

1993 – Wandex
C’est l’index généré par le premier web crawler : World Wide Web Wanderer (créé par le MIT). Ce dernier servait avant tout à mesurer la taille du Web.

1993 – ALIWEB (Archie-Like Indexing for the Web) par Martijn Koster
Il ne crawlait pas le web automatiquement.
Les administrateurs de sites soumettaient volontairement un fichier d’index (ex: index.txt), hébergé sur leur propre serveur, contenant les URL des pages, description du contenu, mots clés choisis par le webmestre.
Aliweb lisait ces fichiers et indexait les pages proposées. 

1994 – Yahoo! par Jerry Yang et David Filo
Au départ, il ne faisait pas de recherche automatisée.
C’est un annuaire de liens éditorialisé (par catégories) complété manuellement par ses deux fondateurs.

1994-1997 : Les premiers moteurs automatisés

1994 – WebCrawler par Brian Pinkerton
Premier moteur à parcourir le Web à partir d’une liste de pages connues (seed) en suivant les liens hypertextes des pages.
Il analysait et indexait le contenu complet des pages (et pas seulement les titres et métadonnées).

1994 – Lycos par Michael Mauldin
À l’origine, était un projet expérimental universitaire financé par le ministère de la défense américain.
Il créait des web crawlers pour explorer et indexer les contenus du Web. Il fut l’un des plus populaires dans les années 90.

1995 – AltaVista (Digital Equipment Corporation)
Explorait le Web à l’aide de son robot d’exploration appelé Scooter.
Les réponses étaient rapides grâce à un système d’index de texte intégral basé sur des mots clés.
Il possédait d’autres fonctionnalités comme la recherche multimédia (images, sons, vidéos) et la traduction (Babel Fish).

1996 – Inktomi par Eric Brewer et Paul Gauthier
Dès son lancement, il prétendait avoir le plus grand index existant avec plus de 1.3 millions de documents sur le Web.
Il a très vite supprimé l’interface de son moteur de recherche pour être un fournisseur recherche pour des portails web.

1997 – Ask Jeeves (devenu Ask.com)
Il est orienté  pour une expérience utilisateur intuitive. Ainsi, il est l’un des pionniers dans l’utilisation du langage naturel.
Il permet aux utilisateurs de poser les questions plutôt que des mots clés.

1998-2005 : L’arrivée de Google

1998 – Création de Google par Larry Page et Sergey Brin
Invention de l’algorithme PageRank, classant les résultats en fonction de leur popularité (liens entrants) et de leur pertinence.

1999–2001 – Google devient le moteur préféré des internautes.
Éclipse progressivement AltaVista, Lycos, Excite, etc.

2000 – Google AdWords. Début de la monétisation via des publicités. Cela influence l’apparence des SERPs.

2003 Florida (Google). Mise à jour pour lutter contre le spamdexing et les fermes de liens.

2005 Sitemaps XML et directives robots.txt. Ces deux systèmes permettent à indiquer aux moteurs ce qu’ils doivent ou non crawler/indexer.

2006-2012 : Indexation dynamique et nouvelle concurrence

2008 – Lancement de Duck Duck Go axé sur la protection de la vie privée

2009 – Microsoft lance Bing, remplaçant Live Search.

2010 – Google Caffeine : nouveau système d’indexation continue pour une mise à jour plus rapide de l’index

2011 – Google Panda. Mise à jour de l’algorithme : filtrage des contenus pauvres (faible qualité), fermes de contenu. C’est plus « qu’est-ce qui doit être mis en avant ou pénalisé dans l’index » que « qu’est-ce qui peut être indexé ».

2012 – Google Penguin. Mise à jour de l’algorithme de ranking (classement) : pénalise les liens artificiels qui manipulaient le classement dans les résultats de recherche.

2013 : Lancement de Qwant. Nouveau moteur respectueux de la vie privée visant une forte concurrence avec Google sur le continent européen.

2013-2017 : Indexation sémantique et mobile-first

2013 – Google Hummingbird. refonte complète de l’algorithme principal de Google. Introduit la recherche sémantique pour mieux comprendre le sens des requêtes, pas seulement des mots-clés.

2015 – Google RankBrain : utilise le machine learning pour interpréter les requêtes et classer les résultats.

2016 Annonce du projet d’indexation mobile-first : Google souhaite se basé sur la version mobile des sites suite à la croissance massive du trafic mobile.

2017 – Bing introduit la recherche visuelle (Visual Search) : possibilité de faire des recherches à partir d’images, pas seulement du texte.

2018 – Déploiement global de mobile-first indexing : Le contenu mobile devient la version principale pour l’indexation

2018-2022 : L’IA, les passages et les données structurées

2018 – Lancement de BERT (Bidirectional Encoder Representations from Transformers) : amélioration de la compréhension du langage naturel par Google

2020 – Passage indexing : Indexation et classement de paragraphes isolés dans une page. Elle n’agit pas sur la phase d’indexation des pages mais améliore le ranking en identifiant un passage pertinent pouvant répondre à des requêtes spécifiques.

2021 Google MUM (Multitask Unified Model) : compréhension multimodale (texte+image). C’est une amélioration de BERT

2022 Importance accrue de l’E-E-A-T (Expérience Expertise Authority Trust) : critères pour évaluer la qualité des contenus et des sites Web, leur crédibilité et utilité.

2023-2025 : Indexation efficiente, IA générative & désintermédiation

2023 – Fin du déploiement de Mobile-First Indexing : Tous les sites indexés selon leur version mobile.

2023 Google – intègre Search Generative Experience (SGE)  : Génération de réponses complètes par IA dans les SERP basées sur les contenus indexés les plus pertinents et fiables.

2023 – Microsoft Bing + ChatGPT (OpenAI)
Intégration de GPT-4 dans Bing, via Copilot : questions complexes, réponses naturelles, citations.

2024 Bing et Yandex étendent IndexNow : les webmestres ou CMS avertissent instantanément les moteurs de recherche de la création, mise à jour ou suppression d’une page web via une notification (requête API). Elle vise à remplacer les méthodes traditionnelles : sitemaps XML, et requêtes manuelles (ex : Google Search Console).

Les 3 étapes d'un moteur

Afin qu’un internaute trouve une page web sur la page de résultats d’un moteur de recherche (SERP), ce dernier a besoin de trois étapes :

  • l’exploration du Web (crawling)
  • l’indexation des contenus
  • le classement des résultats (ranking)

L’exploration

Au début, comme on a pu le voir, tout était manuel : soit le webmestre devait remplir un fichier ou formulaire, ou bien le travail était fait par les développeurs du moteur.

Aujourd’hui, ce n’est plus le cas. Les moteurs de recherche traditionnels utilisent des robots d’indexation, aussi appelés crawlers ou spiders. Ils parcourent le web en suivant les liens hypertexte présents sur les pages.

Son métier est d’être un explorateur.

crawling moteur de recherche

L’indexation 

Cette étape s’effectue en plusieurs phases en réalité. 

Toute d’abord, il va récolter le contenu de la page que ce soit le texte mais aussi les médias (audio, image, vidéo)

Ensuite, il passe à la phase analyse pour savoir si la page « mérite » de figurer dans son index. Elle se base sur un algorithme généralement opaque pour le grand public. Il s’appuie en général sur la qualité et la fiabilité du contenu.

Enfin, s’il répond aux exigences du moteur de recherche, le contenu est ajouté à son index.

Son métier est d’être analyste qualité.

indexation moteur de recherche

Le classement

On arrive à la phase finale. C’est le moment où un utilisateur effectue une requête sur le moteur de recherche. Ce dernier va regarder son index à la recherche de contenus les plus pertinents et fiables répondant à la requête.

Il va les afficher dans la SERP par ordre de pertinence. Il ajoute également des liens sur à des emplacements stratégiques de la page de résultats (souvent au dessus des résultats de recherche) qui ont fait l’objet d’une rémunération.

Pourquoi ma page n’apparaît pas dans les résultats ?

Cela dépend en réalité de ces 3 étapes précitées. Voyons les une par une.

Le crawling

La première question a se poser est : votre page a-t-elle été vérifiée par un moteur de recherche ? 

Il est logique qu’une page ne soit pas indexée dès sa publication. Il existe des solutions mais nous en parlerons dans une dernière partie.

Ensuite, on se demande : la page est-elle crawlable ? Cela signifie qu’un robot d’indexation peut-il vérifier la page ?

1°) Authentification

  • Page de login obligatoire : le contenu est accessible uniquement après identification
  • Authentification HTTP (Basic, Digest)
  • Tokens d’accès ou clés API privées requises

2°) Problèmes de découverte

  • Pages orphelines : Aucun lien entrant depuis d’autres pages (du site mais aussi sur Internet)
  • Fichiers non liés : un fichier uploadé sur le serveur n’est pas indexé s’il n’est pas lié à une page contenant le lien du fichier (ex : image non affichée sur le site)
  • Liens cassés dans les sitemaps XML : un sitemap peut renvoyé vers des URLs bloquées ou non valides.
  • URLs non canoniques (en double) ou introuvables
  • Profondeur de site excessive dépassant les limites de crawl : s’il faut 30 clics d’hyperliens pour atteindre la page, il y a de fortes chances qu’elle ne soit pas explorée par le robot.

3°) Contenu non lisible par le crawler

  • JavaScript requis pour afficher le contenu (sans rendu côté serveur). Certains crawlers peuvent exécuter du JS mais ce n’est pas garanti à 100%.
  • AJAX exclusif : le crawler ne voit rien si le contenu est chargé après un appel AJAX
  • Technologies propriétaires ne peuvent être lues par le robot
  • Les pages générées dynamiquement via des paramètres dans l’URL sont exclues par les crawlers pour éviter les contenus dupliqués.
  • Contenus protégés par un CAPTCHA ou une vérification humaine : les robots ne peuvent pas interagir avec certains scripts, rendant ces contenus non crawlables
  • Iframes peut charger un contenu externe bloqués par l’en-tête HTTP X-Frame-Options: DENY

4°) Restrictions d’accès réseau

  • Pare-feu bloquant les bots selon leur User-Agent
  • Limitation géographique : contenu accessible seulement depuis certains pays
  • Blocage IP : serveurs refusant les requêtes des crawlers identifiés

5°) Blocages au niveau du serveur

  • Fichier robots.txt. Ce fichier peut interdire aux robots d’exploration d’accéder à certaines parties du site, empêchant ainsi le crawl de ces contenus avant même leur indexation
    Attention, une page peut être indexée même quand le fichier robots.txt bloque un contenu.
  • Erreurs HTTP : pages retournant 404, 403, 500, etc. Si la page renvoie une erreur, elles ne sera pas crawlée.
  • Redirections infinies ou chaînes de redirections cassées : le crawler ne peut atteindre le contenu
  • Timeout de serveur : pages qui ne répondent pas assez rapidement, le crawler abandonne la tentative.
  • Serveurs hors ligne ou inaccessibles

6°) Restrictions de protocole

  • HTTPS avec un certificat invalide
  • Protocoles hors HTTP. Contenu accessible uniquement via un client FTP, une app mobile ou un protocole propriétaire.

L’indexation

Maintenant que le robot d’indexation est passé sur la page, elle va l’analyser pour déterminer si elle doit être indexée.

Il y a des raisons très variées qu’on peut regrouper en trois familles.

1°) Blocage de l’indexation

Cette partie est consacrée aux techniques mises en place sur le site pour empêcher volontairement l’indexation.

  • Meta robots « noindex » : Elle empêche explicitement l’indexation de la page. Pour qu’elle fonctionne, il faut que le fichier robots.txt n’empêche pas sa lecture.
<meta name="robots" content="noindex">
  • En-têtes HTTP X-Robots-Tag avec directive noindex. Ils sont envoyés en réponse à la requête d’un crawler. Elle fonctionne de la même manière que la solution précitée à la différence qu’elle n’apparaît pas dans le code source de la page (HTML).
  • Canonical vers une autre URL : contenu considéré comme un double peut renvoyer vers la page principale (dite canonique) via la balise link.
<link rel="canonical" href="https://monsite.com/page-principale" />

2°) Jugement sur le contenu

Le choix d’une d’indexation ou non dépend d’un algorithme du moteur de recherche fixant des règles. Elle peuvent varier selon le moteur. La première partie concerne le contenu analysé :

  • Contenu de faible qualité : le moteur juge le contenu à faible valeur (ajoutée). Cela peut venir d’une longueur de texte insuffisante, un contenu générique sans intérêt, etc…
  • Contenu similaire à d’autres pages (duplicate content) : un robot va comparer la page avec les entrées de l’index pour voir si un contenu similaire existe. S’il en trouve un, la page ne sera pas indexée.
  • Pages similaires : là, on parle des pages du site Web. Quand plusieurs pages sont trop similaires, le moteur de recherche choisira d’indexer uniquement les pages  les plus populaires, riches en contenu.
  • Fiabilité : non seulement la qualité compte mais aussi la fiabilité. On entend par là la compétence de l’auteur dans le domaine. Cela se traduit sur les liens internes et externes du site par exemple (des liens entrants montrent une reconnaissance par d’autres sites).

3°) Performance du site

Plus que le contenu, le moteur de recherche va aussi analyser l’accessibilité du contenu via plusieurs facteurs :

  • Temps de chargement : les pages trop lentes à s’afficher sont souvent refusée par les moteurs de recherche afin d’offrir la meilleure expérience utilisateur pour les visiteurs du site.
  • Erreurs de rendu : Il peut arriver que des scripts JS soient cassés ou un CSS est manquant ou incomplet.
  • Problèmes d’encodage : Sur certaines pages, les accents sont mal affichés. Cela vient d’un mauvais encodage de la page.
  • Balisage HTML invalide : Si on code le site à l’ancienne, on peut parfois oublier la fermeture de certaines balises. Cela peut provoquer un affichage bugué.

Le ranking

On finit avec l’affichage des résultats d’un moteur de recherche. Les raisons sont plus simples mais aussi plus générales donc plus difficiles à corriger :

1°) Fréquence de crawl

Votre page n’est pas encore indexée ? Il faut attendre pour le passage automatique du robot d’indexation dont la fréquence dépend de l’autorité (fiabilité) de votre site.

Sinon, utilisez des outils pour avertir les moteurs de recherche d’une nouveauté ou mise à jour :

2°) Concurrence

Vous n’êtes pas seul sur Internet. Il est fort probable que votre page soit indexée mais apparaîtra à la 20e page des résultats.

May6 C’est possible en fait partie. C’est un petit site. Rechercher avec les mots clés « tutorial excel » et vous vous rendrez compte qu’il n’apparaît pas sur les premières pages.

La solution est d’offrir une plus-value dans vos contenus et de proposer des articles/pages qui ne sont pas forcément traiter par d’autres et que les internautes recherchent l’information.

Il faut aussi se faire connaître par les autres sites pour qu’ils ajoutent des liens hypertexte vers votre site et ainsi, augmenter votre fiabilité.

3°) Référencement SEO

Il existe des techniques pour améliorer le référencement notamment dans l’utilisation des métadonnées (description, mots-clés, etc…).

Je vous invite à vous rapprocher de sites spécialisés sur le sujet. En voici une liste non exhaustive :

videos tutoriels

Nos guides en vidéo

Vous en avez marre des longs articles ?
Apprenez grâce à nos vidéos tutoriels