Tout comprendre des différents Web (deep, dark, visible, indexé...)

Le Web est un terrain de jeu rempli d’innombrables pages Web (des milliards). Or, un internaute lambda ne visite qu’une infime partie. On peut comparer cela à la partie émergée d’un iceberg.

Tant de termes pour désigner une partie du Web : Deep Web, Web indexé, Web surfatique, Web invisible…

Introduction

May6 C’est possible va décrypte tout cela simplement. Je vous le dis tout de suite pour ne pas vous perturber plus tard : il existe des définitions dites académiques qui sont datées (début du siècle) qui ont même une définition officielle en France via le Journal Officiel.

Or, ces définitions qui ont fait consensus il y a 25 ans, ne sont plus adaptées de nos jours à tel point que des chercheurs ont redéfini les termes pour qu’ils soient plus adaptés à nos usages aujourd’hui.

Avant de commencer les définitions, je tiens à soulever un point : les différents web sot un ensemble de pages qui répondent à un ou plusieurs critères. Or, un site Web peut avoir des pages dans le Surface Web et d’autres pages dans le Deep Web.

Définitions "académiques"

Nous allons commencer par le plus simple. Nous allons effectuer cette distinction à partir d’un critère unique

Il était utilisé il y a plus de 20 ans quand les termes ont vu le jour : l’indexation par les moteurs de recherche

On peut diviser le Web en 2 blocs :

le Surface Web : la partie émergée de l’iceberg. C’est la partie visible.
le Deep Web : la partie immergée de l’iceberg. C’est la partie cachée.

La partie émergée : le Surface Web

En 2000, Michael K. Bergman, fondateur de BrightPlanet, a cherché à quantifier l’ampleur du Web non indexé. Il a réalisé à cet effet 2 publications :

« The Deep Web: Surfacing Hidden Value », un article sur le site de BrightPlanet en juillet 2000.
une version améliorée publiée dans le Journal of Electronic Publishing en août 2001.

Son article de 2001 est une référence fondamentale qui a changé la perception du Web en général.

Il utilise une métaphore pour déterminer son appellation : rechercher via des moteurs classiques, c’est comme traîner un filet à la surface de l’océan, laissant échapper une vaste quantité d’information enfouie dans les profondeurs, d’où l’allusion récurrente avec un iceberg.

« The Surface Web is what we see via search engines, while the Deep Web is everything else. »

Le Surface Web (Web surfacique en français) est l’ensemble des pages web facilement visible et accessible, que les moteurs de recherche ont indexé en suivant les liens hypertexte statiques.

L’expression Surface Web sert à établir un contraste important avec son concept de Deep Web et appuyer sur le volume colossal qui se cachait en dessous de la surface.

De plus, avant l’article, cette partie était appelé le Web par le grand public ce qui est foncièrement erroné. Avec cette publication, on a pu donner un terme technique parlant (bien que Visible était déjà mentionné mais sans concept concret).

La partie immergée : le Deep Web

Bien que le concept d’un « Web invisible » Bergman a redéfini les couches du Web avec notamment la partie non indexée par les moteurs de recherche.

Le Deep Web est défini comme suit :

« The Deep Web is that portion of the Web that is not indexed by standard search engines and is hidden behind HTML forms. »
« Deep Web content is dynamically generated in response to a user’s request and does not reside in a fixed URL. »
« Standard search engines cannot ‘see’ or retrieve content in the Deep Web because their crawlers cannot fill out HTML forms. »
« Public information on the Deep Web is currently 400 to 550 times larger than the commonly defined World Wide Web. »
« Deep Web content is not linked to by other pages in a way that search engine crawlers can follow. »
he Deep Web consists of all the information stored in searchable databases that cannot be reached by a direct link or URL.

On en ressort les caractéristiques suivantes :

Part du Web qui n’est pas indexée par les moteurs de recherche standard
Le Deep Web est caché derrière un formulaire HTML qui ne peut être rempli par un robot d’indexation
Le contenu du Deep Web est produit dynamiquement, en réponse à une requête (ex. : résultats d’une base de données, formulaires, intranets) et ne réside pas dans des URL fixes.
Les informations publiques dans le Deep Web est 400 à 550 fois plus grand que le Surface Web

Donc, selon Bergman, le Deep Web est l’ensemble des contenus du Web qui n’est pas indexé par les moteurs de recherche car ils sont derrière un formulaire que ne peut gérer un moteur de recherche. Les crawlers de l’époque, qui suivaient les liens hypertextes, ne pouvaient sonder les contenus générés dynamiquement.

Il propose ce terme en toute connaissance de cause, jugeant Hidden Web moins parlant. Il remplace ce dernier dans la plupart des publications scientifiques et techniques car il est jugé plus précis.

Le Dark Web

Contrairement aux deux expressions précédentes, Michel Bergman n’en fait pas mention que ce soit implicitement ou explicitement.

Au début du siècle, de nouveaux réseaux apparaissent :

2000 : Freenet
2002-2004 : Tor

À cette époque, on ne parlait pas encore de Dark Web. On est d’abord passé par un autre concept : le Darknet.

1. Première source académique (2002)

La première conceptualisation d’un darknet vient d’un article de 2002 rédigés par des ingénieurs de Microsoft : Peter Biddle, Paul England, Marcus Peinado, et Bryan Willman.

Intitulé « The Darknet and the Future of Content Distribution » se concentrait sur la menace de ces réseaux pour les droits d’auteur et l’industrie de contenus.

Il définit un darknet comme une collection de réseaux et de technologies utilisées pour le partage de contenu numérique de manière anonyme et non traçable.

2. Popularisation par le presse (2003-2010)

Durant toute cette période, nous restons sur l’expression darknet, voire même Deep Web (par méconnaissance du sujet).

L’article « The Internet’s ‘Hidden’ Worlds » paru dans le The New York Times le 23 octobre 2009 décrit des sites cachés et une zone sombre d’Internet pour parler des réseaux Tor. Il y fait mention de darknets.

3. Apparition de Dark Web

Tout d’abord, il y aurait eu mention de Dark Web dès :

1998 selon Merriam Webster
2009 dans un article de presse comme mentionné sur le site Britannica.

Mais sans sources comme preuves, je préfère ne pas en tenir compte.

Le réel tournant fut la médiatisation du marché illégal Silk Road en 2011. La presse utilise l’expression Dark Web.

Voici l’explication donnée dans un article de Wired magazine

The Dark Web is a part of the internet that isn’t indexed by search engines and requires special software, like Tor, to access.
Le Dark Web est une partie d’Internet qui n’est pas indexée par les moteurs de recherche et nécessite un logiciel spécial, comme Tor, pour y accéder.

4. Formalisation académique (2014-2018)

Pour enlever les ambiguïtés notamment avec le Deep Web, des chercheurs commencer à formaliser la distinction entre Deep Web et Dark Web.

Exemple : 2018 – « Into the Web of Profit » écrit par Michael McGuire, maître de conférences en criminologie. Il en ressort :

The Dark Web is a subset of the Deep Web that is intentionally hidden, requiring specific tools (like Tor) to access. It is often associated with illegal marketplaces, but also hosts legitimate privacy-focused services.
Le Dark Web est un sous-ensemble du Deep Web, volontairement caché, nécessitant des outils spécifiques (comme Tor) pour y accéder. Souvent associé à des marchés illégaux, il héberge également des services légitimes axés sur la confidentialité.

On obtient presque la définition finale. Je vais y ajouter quelques éléments.

Le Dark Web est une petite partie du Deep Web accessible uniquement via des réseaux anonymes (comme Tor, I2P ou Freenet). Il se caractérise par :

les contenus ne sont pas indexés par les moteurs de recherche
nécessite un logiciel spécifique (ex : Tor Browser) pour y accéder
les utilisateurs et les sites sont masqués grâce à des protocoles de chiffrement et de routage aléatoire en oignon (plusieurs relais).
les contenus sont variés :
- légaux : protection de la vie privée, journalisme, contourner la censure (dans la pays totalitaires)
- illégaux : marchés noirs (drogues, armes, données volées), forums criminels et terroristes.

Les autres termes : visible/indexed/searchable Web vs invisible/hidden/unindexed web

Pour comprendre, voyons l’évolution du Web et des concepts au fil des années :

1. Création du Web (1991)

Le Web est créé par Tim Berners-Lee. Toutes les pages sont visibles si on connaît son URL. Il n’y a pas encore de distinction.

2. Début de l’indexation et distinction (1992-2000)

Dès les premières années, les ingénieurs travaillant sur les premiers moteurs de recherche (Altavista, ALIWEB et Yahoo notamment) ou le référencement SEO avaient remarqué que seuls les contenus indexés peuvent être trouvés avec une recherche automatisée sur les moteurs.

On commence à distinguer un volume d’informations cachées mais cela reste implicite.

Ensuite, des termes ont émergé suite à des publications :

a) Invisible Web

Expression la plus ancienne et si fondamentale pour désigner le contenu non indexé. Elle fut formulée en 1994 par Jill Ellworth, professeure d’université.

Elle publie un ouvrage « Marketing on the Internet: Multimedia Strategies for the World Wide Web » co-écrit avec son mari. Il devait aider les professionnels du marketing à trouver des ressources « cachées » sur le Web en dehors des moteurs.
Dans cet ouvrage, elle utilise l’expression Invisible Web en désignant le contenu mondial invisible pour les moteurs de recherche traditionnels.

« It would be a site that’s possibly reasonably designed, but they didn’t bother to register it with any of the search engines. So, no one can find them! You’re hidden. I call that the invisible Web. »

En 1996, Frank Garcia cite cette expression dans un article.

Dans un communiqué de presse de 1er décembre 1996 pour leur outil @1, Bruce Mount et Matthew B. Koll utilisent cette expression d’Invisible Web.

En 2001, Michael Bergman crédite J. Ellworth pour l’expression Invisible Web en citant un article de Frank Garcia en janvier 1996.

b) Visible Web

L’expression n’a pas été inventée à un moment précis et n’est relié à aucune publication scientifique ou technique particulière.

Elle a surtout émergé à l’usage pour :

l’opposer au Invisible/Deep/Hidden Web
synonyme de Surface Web

Visible Web n’a donc aucune valeur académique puisqu’elle n’a pas été clairement définie. Toutefois, c’est un synonyme populaire dans les publications grand public et technique.

c) Hidden Web (Web caché)

Il n’y a aucune attribution spécifique à la première apparition cette expression. Elle a probablement été utilisée au cours des années 90 comme synonyme de l’Invisible Web.

On a déjà un aperçu de l’idée à travers la citation d’Ellworth avec la mention de hidden.

Il y a deux publications identifiables à compter de 2001 :

l’article fondateur de Michael Bergman mentionne les expressions “Invisible Web” et “Hidden Web” comme des termes émergents pour cette partie non indexée du Web, mais sans leur attribuer une origine précise ni les dater spécifiquement.

« The deep web, invisible web, or hidden web are parts of the World Wide Web whose contents are not indexed by standard web search-engine programs. »

En 2001, Sriram Raghavan et Hector Garcia-Molina, chercheurs à Standford, ont présenté un modèle architectural pour un crawler qui utilisait des mots clés fournis par les utilisateurs pour interroger un formulaire Web et explorer les ressources situées dans le Deep Web. Voici leur définition du Web caché :

« The hidden web consists of pages that are dynamically generated in response to queries and are not reachable via static links. »

On a enfin une source plus moderne datant de 2008 : « Understanding the Hidden Web » par Pierre Senellart, Rémi Gilleron et Serge Abiteboul. Elle donne une définition claire en reconnaissant que le concept était déjà établi. Le Hidden Web est composé d’une vaste quantité d’informations hautement structurées non accessible par des hyperliens mais dissimulées derrière des formulaires HTML ou des services Web.

d) Searchable/Indexed Web

Il n’y aucune mention claire de ces deux expressions dans des publications scientifiques ou académiques.

Elles sont peu employées voire pas du tout à mon humble avis. On a plus de chances de trouver des expressions indexed contents, ou searchable website. Mais les associer à Web semble un abus de langage.

Elles apparaissent sur Wikipedia (la plus grande encyclopédie en ligne). S’il sert de base pour d’autres sites, cela propage ces expressions sur le Web sans grande utilité. Au moins, elles servent de synonyme pour éviter les répétitions de Visible ou Surface dans un contenu en ligne ^^

e)Unindexed Web

Comme pour les précédentes expressions, il y a aucune référence. La seule qui s’en approcherait serait deux mentions par Michael Bergman dans son célèbre article :

« The Deep Web is not indexed by surface Web search engines. »
« The Surface Web is only the tip of the iceberg. The Deep Web is everything else—unindexed, dynamic, and protected content. »

Avant d’attaquer la dernière partie de cette rubrique, je voulais mentionner une publication supplémentaire : « Accessibility of information on the web » par Steve Lawrence et C .Lee Giles en 1999.
Leurs travaux axés sur l’accessibilité et l’indexation de l’information apporte une preuve scientifique aux concepts de Hidden Web et Invisible Web sans faire mention de ces expressions.
Il met en lumière la limitation des moteurs de recherche concernant le volume important d’informations non accessible en raison d’une génération dynamique des pages ou que les ressources étaient derrière un formulaire.

3. Formalisation des concepts (2001)

La principale contribution vient des publications de Michael Bergman (voir première partie).

C’est ce qui servit de base de référence pour distinguer les différentes parties du Web.

Il est simplement reparti d’une feuille blanche et a proposé de nouvelles terminaisons : Surface Web, Deep Web et Dark Web.

Évidemment, il n’interdit pas les autres expressions. Ils les considèrent comme des synonymes aux siens.

Pour preuve, l’ouvrage “The Invisible Web: Uncovering Information Sources Search Engines Can’t See” par Chris Sherman & Gary Price aussi paru en 2001.
Les auteurs ont démontré que la majorité des contenus n’est pas indexée.
Il a popularisé les termes de visible web et invisible web auprès du grand public. Il fait la mention explicite de Deep Web et implicite de Surface Web.

Il existe évidemment bien d’autres travaux de recherche et publications et je présente mes excuses de ne pas les citer.

Le Web aujourd’hui – les définitions modernes

La distinction des différents web uniquement sur l’indexation des moteurs de recherche est devenue obsolète.

Le Web a énormément évolué aujourd’hui. Il n’y a plus 2 types de contenus :

contenus indexés : souvent composé de pages statiques simples
contenus non indexés : ressources cachées derrière un formulaire HTML (bases de données) et intranets.

De nos jours, il faut compter sur les réseaux anonymes, les sites privés (nécessite une authentification), les techniques pour bloquer l’indexation, la différence entre indexable et indexé et c’est sans compter les zones grises que l’on verra à la fin.

Critères de distinction

Faisons une liste des facteurs déterminants pour affilier une page web à un type web (ou plusieurs).

1°) contenu indexé sur un moteur de recherche

Déjà utilisé, il y a 20 ans, il est plus complexe aujourd’hui :

une page peut être indexée par Google, mais pas sur Bing
une page indexable n’est pas forcément indexée.
techniques de protection contre l’indexation

Compte tenu de la complexité du sujet, je vous invite à lire l’article dédié.

2°) Libre accès ou restreint

Une page web peut être accessible à tout internaute. On parle aussi de page publique

Dans certains cas, la page est accessible uniquement après authentification. Là, on utilise aussi l’expression page privée.

3°) Contenu statique ou dynamique

On avait vu précédemment que les moteurs de recherche étaient dans l’incapacité de gérer les contenus dynamiques il y a 25 ans. Cela a changé.

Aujourd’hui, les moteurs de recherche sont capables d’analyser les contenus derrière un formulaire HTML s’il n’est pas complexe.

4°) Type de navigateur

On fait la distinction pour séparer l’accès via un navigateur standard (Chrome, Safari, Firefox…) ou un navigateur spécial nécessaire (Tor Browser) pour accéder à une page.

5°) Protection d’accès

Ce sont les moyens mis en place pour protéger l’accès d’un réseau contenant des pages web (vpn, proxy, pare-feu). Cela concerne principalement les réseaux d’entreprises et intranets.

Définitions modernes

1°) Surface Web

Facteur	Appartient au Surface Web	N'appartient pas au Surface Web
Indexation des moteur de recherche	contenu indexé	contenu non indexé
Accès	libre	restreint
Contenu	statique ou dynamique simple	dynamique complexe
Navigateur	standard	spécial
Protections d’accès	❌	✅

Le Surface Web est l’ensemble des pages web publiquement accessibles, indexées par les moteurs de recherche, et consultables via des navigateurs standard. Elle ne nécessite aucun authentification. Le serveur hébergeant le contenu n’a mis aucun moyen de restriction d’accès.

On estime que le Surface Web représente 4% du contenu total du Web.

On peut trouver le terme Clearnet pour l’opposer au Dark Web.

2°) Visible Web

Dans sa forme moderne, il reste synonyme de Surface Web (comme sa version académique).

3°) Indexed Web

On le distingue des autres Web uniquement avec un facteur : le contenu est-il indexé par les moteurs de recherche traditionnels ?

Si c’est le cas, il rentre dans le champ d’application de l’Indexed Web.

4°) Deep Web

Facteur	Appartient au Deep Web	N'appartient pas au Deep Web
Indexation des moteur de recherche	contenu non indexé	contenu indexé
Accès	libre et restreint	libre et restreint
Contenu	statique ou dynamique simple	statique ou dynamique simple
Navigateur	standard	spécial
Protections d’accès	Oui et Non	Oui et Non

Un contenu du Deep Web est non indexé par les moteurs de recherche et accessible avec un navigateur standard.

Il peut peut être :

public (visible à tous) ou privé (nécessite une authentification).
statique (HTML) ou dynamique (contient du javascript/AJAX, derrière un formulaire ou une requête en base de données).
non protégé techniquement ou protégé activement (VPN d’entreprise, pare-feu, captcha)

5°) Hidden Web (Web caché)

Il est considéré comme le synonyme du Deep Web.

Certains courants minoritaires tentent de distinguer le Hidden Web comme une sous-catégorie du Deep Web, regroupant les contenus volontairement restreints par authentification ou pare-feu. Cependant, cette distinction n’est pas standardisée et les termes restent largement interchangeables dans la littérature.

6°) Invisible Web

Nous sommes dans la même situation que le Hidden Web avec deux courants (voir ci-dessus).

7°) Dark Web

Facteur	Appartient au Dark Web	N'appartient pas au Dark Web
Indexation des moteur de recherche	contenu non indexé	contenu indexé
Accès	parfois libre et souvent restreint	libre et restreint
Contenu	statique ou dynamique simple	statique ou dynamique simple
Navigateur	spécial	standard
Protections d’accès	Oui et Non	Oui et Non

Le Dark Web est défini comme un sous-ensemble du Deep Web, donc non indexé par les moteurs de recherche traditionnels. Toutefois, il nécessite un navigateur spécial pour y accéder.

Dans le Dark Web, on peut trouver des pages publiques ou privées, et avec ou sans protections d’accès.

Il se trouve dans des réseaux anonymes avec un système de connexions chiffré, décentralisés et sur plusieurs couches (tel un oignon).

8°) Non-Indexed Web

Comme son opposé, il repose sur l’indexation des pages par les moteurs de recherche traditionnels.

Il contient toutes les pages non indexées pour deux raisons :

volonté du site par des techniques
refus par le moteur de recherche

Zones grises

En fonction des différentes définitions « officielles » et de nouveaux courants, cela crée des ambiguïtés dans certaines situations. Je vais vous présenter certains cas :

1°) Page publique non-indexée

Une page web publique mais non indexée par les moteurs de recherche alors que la volonté de l’auteur est qu’elle soit dans le Surface Web.

Elle est classée dans le Deep Web par défaut. Le problème vient du choix du moteur de recherche qui possède un algorithme opaque contenant des règles comme la qualité de contenu…

Certains mouvements souhaitent une évolution des termes pour tenir compte de cette problématique.

2°) Pages indexées mais à accès restreint

Un résultat Google (donc indexé) mène à une page qui nécessite une authentification pour accéder au contenu.

La page est dans le Surface Web mais le contenu est dans le Deep Web.

On retrouve souvent cette situation dans les contenus « premium ». On parle de « gated content« .

3°) Résultats de formulaires dynamiques

Selon l’efficacité d’un moteur de recherche à exploiter un formulaire HTML, le contenu peut être dans le Surface Web ou Deep Web. C’est ce qu’a révélé Michael Bergman en 2001.

À l’époque, 100% de ces contenus étaient dans le Deep Web. Aujourd’hui, les moteurs de recherche peuvent indexer les contenus si le formulaire n’est pas complexe.

4°) Contenus géo-restreints

Un contenu peut être accessible à un certain public mais bloqué à d’autres. Donc il oscille entre le Surface Web et le Deep Web selon l’utilisateur.

5°) Indexation inégale

On peut très bien trouvé un contenu via une recherche Google mais pas sur un autre moteur de recherche. Cela dépend de deux choses :

la capacité du moteur à crawler le Web
l’algorithme faisant le choix d’indexer une page ou non

Conclusion

J’espère que vous avez apprécié cet article. Cela peut sembler simple mais avec cet article, vous pouvez voir la complexité de la terminologie du Web.

Evidemment, j’ai simplifié au maximum pour une meilleure compréhension. Ce n’est pas une étude scientifique mais un contenu de vulgarisation de cette thématique pour être abordable à tout individu.