?️ Audit de liens : construire une logique SEO avant d’automatiser

?️ Audit de liens : construire une logique SEO avant d’automatiser

La problématique de l’audit de liens

Faire un audit de liens n’est pas aussi simple qu’il y paraît. Avant de lancer un script, un crawler ou un outil d’analyse, il faut d’abord savoir ce que l’on cherche réellement à vérifier.

Un lien peut répondre correctement, afficher une page valide, ne provoquer aucune erreur apparente. Et pourtant il rester incohérent dans la structure globale d’un site.

C’est là que l’audit devient intéressant. Il ne s’agit plus seulement de savoir si une URL fonctionne, mais de comprendre si elle respecte la logique éditoriale et SEO du site.

J’ai déjà évoqué ici plusieurs outils utiles pour ce type de travail :

Ces outils sont précieux, mais ils ne remplacent pas une réflexion préalable. C’est particulièrement vrai lorsqu’un site mélange :

Dans ce contexte, l’audit de liens ne consiste pas seulement à repérer des erreurs techniques.

Mais Il sert aussi à vérifier que chaque lien pointe vers la bonne version d’une page. À vérifier qu’il respecte la hiérarchie du site. À vérifier qu’il ne contredit pas les balises canoniques, et qu’il s’inscrit dans un maillage interne cohérent.

Cet article ne propose donc pas encore un script complet. Il pose d’abord les règles du jeu.

Quelles incohérences chercher, pourquoi elles comptent, et comment préparer un futur contrôle automatisé réellement utile.

L’automatisation viendra ensuite. Mais elle n’a de sens que si l’on sait déjà distinguer un lien simplement valide d’un lien vraiment cohérent. Un script peut vérifier des centaines d’URL en quelques secondes ; encore faut-il lui donner de bonnes règles à appliquer.

Ce qu’un outil voit… et ce qu’il ne peut pas deviner

Un outil d’audit sait très bien repérer un lien qui ne répond pas, une image absente, une erreur serveur ou une redirection. Il peut aussi lister les URL rencontrées, signaler les codes HTTP, relever certains titres de pages ou détecter des doublons évidents.

En revanche, il ne connaît pas forcément l’intention éditoriale qui se cache derrière chaque lien. Il ne sait pas toujours si une page doit être considérée comme une page principale, une page de détail, une archive, une correction, une ressource secondaire ou une simple variante technique.

Par exemple, deux URL peuvent afficher un contenu très proche, mais ne pas avoir le même rôle. L’une peut être la page de référence, l’autre une fiche générée automatiquement. De la même manière, une URL avec paramètre peut être indispensable dans certains cas, mais inutile ou même gênante dans d’autres.

C’est là que commence le véritable travail de réflexion. Avant de demander à un outil de signaler les anomalies, il faut définir ce qui constitue une anomalie pour ce site précis. Une redirection, un paramètre ou une page dynamique ne sont pas des problèmes en soi : tout dépend de la logique prévue.

Identifier les familles de pages du site

Avant de contrôler les liens, il faut comprendre les différents rôles joués par les pages du site. Toutes les URL n’ont pas la même fonction : certaines présentent un contenu principal, d’autres servent de porte d’entrée, d’autres encore ne sont que des variantes générées automatiquement.

Cette distinction est essentielle, car une même règle ne peut pas s’appliquer partout. Une page d’accueil de rubrique, une fiche détaillée, un fichier PDF, une image de partage ou une page de correction ne doivent pas forcément être traités de la même manière dans un audit SEO.

On peut par exemple distinguer plusieurs familles de pages :

Une fois ces familles identifiées, l’audit devient plus clair. On ne se contente plus de demander si une URL fonctionne : on peut vérifier si elle joue le bon rôle, si elle pointe vers la bonne version, et si elle respecte la logique prévue pour sa famille.

Par exemple, une page hub devrait généralement rester simple et lisible, sans paramètre inutile. À l’inverse, une page de détail peut avoir besoin d’un paramètre pour afficher la bonne fiche. Le problème ne vient donc pas du paramètre lui-même, mais de son usage dans le mauvais contexte.

Transformer cette cartographie en règles SEO

Identifier les familles de pages ne suffit pas. Il faut ensuite transformer cette cartographie en règles simples, vérifiables et adaptées au fonctionnement réel du site.

L’objectif n’est pas de créer une théorie compliquée, mais de formuler des principes clairs. Une fois ces principes posés, ils pourront être contrôlés à la main, puis automatisés plus tard avec un script.

Par exemple, on peut définir des règles comme :

Ces règles peuvent sembler évidentes lorsqu’on les lit séparément. Pourtant, sur un site qui évolue pendant plusieurs années, elles finissent vite par se mélanger : anciennes URL encore présentes dans certains articles, paramètres oubliés, pages dynamiques mal reliées, fichiers PDF qui pointent vers une ancienne version, ou images de partage qui ne correspondent plus exactement au contenu.

C’est précisément pour cela que cette étape est importante. Le futur audit automatisé ne devra pas seulement dire si une page existe. Il devra vérifier si chaque lien respecte la règle prévue pour le type de page concerné.

Autrement dit, la cartographie donne une vue d’ensemble du site ; les règles SEO permettent ensuite de transformer cette vue d’ensemble en contrôles concrets.

Le cas particulier des pages dynamiques

Les pages dynamiques compliquent fortement l’audit de liens. Une même page PHP peut produire plusieurs contenus différents selon les paramètres présents dans l’URL. Techniquement, tout peut fonctionner correctement, mais la logique SEO peut devenir difficile à lire.

Par exemple, une URL sans paramètre peut servir de page hub, tandis qu’une URL avec paramètre peut afficher une fiche précise, un exercice particulier ou une variante générée automatiquement. Ces deux URL peuvent donc utiliser le même fichier, mais ne pas avoir le même rôle éditorial.

On peut rencontrer des cas comme :

Les paramètres

Dans ce contexte, le problème ne vient pas du caractère dynamique de la page. Une URL avec paramètre peut être parfaitement légitime si ce paramètre sert réellement à identifier un contenu. Le problème apparaît lorsque le paramètre devient inutile, contradictoire, vide, redondant ou incohérent avec la page canonique.

L’audit doit donc poser des questions plus précises : ce paramètre est-il nécessaire ? La page obtenue doit-elle être indexée ? La balise canonique correspond-elle à l’URL attendue ? Les liens internes pointent-ils vers la bonne version ? Le sitemap inclut-il les bonnes variantes, ou ignore-t-il des pages importantes ?

C’est souvent sur ce type de pages que les outils génériques montrent leurs limites. Ils peuvent constater que l’URL répond correctement, mais ils ne savent pas forcément si ?x=42 représente une fiche importante, une simple variante technique, ou une URL qui ne devrait jamais être liée directement.

Pour auditer correctement des pages dynamiques, il faut donc documenter leur logique. Quels paramètres sont autorisés ? Lesquels doivent apparaître dans l’URL canonique ? Quelles variantes doivent être indexées ? Quelles URL doivent rester internes, mais ne pas apparaître dans un sitemap ? Ces réponses dépendent de la structure réelle du site.

Un audit automatisé utile devra tenir compte de cette logique. Il ne devra pas se contenter de tester si la page répond ; il devra vérifier que l’URL dynamique correspond bien au rôle attendu : page hub, page de détail, variante imprimable, correction, ressource associée ou simple paramètre technique.

Préparer le futur audit automatisé

Une fois les familles de pages identifiées et les règles SEO définies, l’automatisation devient beaucoup plus simple à envisager. Le futur script n’aura pas à décider seul de ce qui est correct ou non : il devra appliquer une logique déjà pensée en amont.

Avant d’écrire la moindre ligne de code, il est donc utile de préparer une petite grille de contrôle. Elle servira de cahier des charges pour le futur audit automatisé.

On peut par exemple prévoir de vérifier :