Vous avez vu les démos. Un prompt dans Lovable, trois allers-retours avec Claude Code, et hop : un site qui ressemble à quelque chose, déployé en une après-midi. C'est vrai. Et c'est précisément le piège.
Ce que ces outils produisent, c'est la partie visible d'un site web. La partie qui fait qu'un site fonctionne - qu'il est trouvé par Google, cité par ChatGPT, rapide sur mobile et conforme à la loi - celle-là, personne ne vous la génère par défaut. Voici la checklist complète de ce que l'IA ne vous dit pas.
Le rendu serveur (SSR) : ce que les robots voient vraiment
Beaucoup d'outils IA génèrent des Single Page Applications : une coquille HTML vide remplie par JavaScript dans le navigateur. Vous, vous voyez votre site. Un robot d'indexation, lui, peut ne voir qu'une page blanche.
Google exécute le JavaScript, mais avec un délai et un budget limité. Les crawlers des IA (GPTBot, ClaudeBot, PerplexityBot) sont encore moins patients : la plupart n'exécutent pas le JavaScript du tout. Si votre contenu n'est pas dans le HTML initial, vous n'existez pas pour eux.
La solution s'appelle le rendu côté serveur (SSR) ou la génération statique (SSG) : le serveur envoie du HTML complet, lisible immédiatement. Avec Next.js, Astro ou Nuxt, c'est le comportement par défaut - à condition de ne pas tout transformer en composant client. Vérifiez vous-même : faites « Afficher le code source » sur votre page. Si votre texte n'y figure pas, vous avez un problème.
Le SEO technique : les fondamentaux non négociables
Chaque page de votre site doit avoir :
- Une balise
<title>unique (50 à 60 caractères) qui décrit la page, pas votre marque seule ; - Une meta description (150 à 160 caractères) qui donne envie de cliquer ;
- Une seule balise
<h1>, puis une hiérarchie propre de<h2>et<h3>; - Une URL canonique pour éviter le contenu dupliqué (avec et sans www, avec et sans slash final…) ;
- Les balises OpenGraph et Twitter Card pour que vos liens partagés affichent un aperçu correct ;
- Des attributs
altsur toutes les images porteuses de sens.
Aucun de ces points n'est compliqué. Mais un site généré par prompt en oublie systématiquement la moitié, parce que rien de tout ça n'est visible dans une démo.
sitemap.xml : la carte que les robots attendent
Le sitemap est un fichier XML qui liste toutes les pages de votre site avec leur date de dernière modification. C'est la première chose qu'un moteur consulte pour découvrir votre contenu.
Deux pièges classiques :
- Le sitemap statique : généré une fois au déploiement, il ne contient jamais vos nouvelles pages (articles de blog par exemple). Il doit être généré dynamiquement.
- Le sitemap oublié : il existe, mais n'est déclaré nulle part. Déclarez-le dans votre robots.txt et soumettez-le dans la Google Search Console.
robots.txt : dire qui peut entrer (et où)
Ce petit fichier à la racine de votre site indique aux robots ce qu'ils peuvent explorer. Un robots.txt minimal mais correct :
User-agent: *
Allow: /
Disallow: /api/
Disallow: /admin/
Sitemap: https://votresite.fr/sitemap.xml
Trois erreurs courantes : bloquer tout le site par mégarde (un Disallow: / oublié d'un environnement de test), bloquer les ressources CSS/JS dont Google a besoin pour comprendre la page, et ne pas déclarer le sitemap.
C'est aussi ici que vous décidez de votre politique vis-à-vis des crawlers IA : autoriser GPTBot et ClaudeBot, c'est accepter d'être lu - et donc potentiellement cité.
Le GEO : être cité par ChatGPT, pas seulement classé par Google
De plus en plus de recherches passent par les IA génératives. Le GEO (Generative Engine Optimization) consiste à maximiser vos chances d'être repris comme source. Concrètement :
Les données structurées (JSON-LD)
Un script JSON-LD dans votre page décrit votre contenu dans un format que les machines comprennent sans ambiguïté : qui est l'auteur, quand l'article a été publié, de quoi il parle. Les schémas les plus utiles : Organization, Person, BlogPosting, FAQPage, BreadcrumbList.
Le fichier llms.txt
Standard émergent, le llms.txt est l'équivalent du sitemap pour les IA : un fichier markdown à la racine qui présente votre site et liste vos contenus importants avec une description. Dix minutes de travail, et les crawlers IA disposent d'un index propre au lieu de deviner.
Un contenu structuré pour la citation
Les IA citent des passages courts et autonomes. Donnez-leur ce qu'elles cherchent : des titres de section explicites, des réponses directes en début de section, des dates de publication et de mise à jour visibles, un auteur identifié. Une section FAQ en fin de page est redoutablement efficace : c'est exactement le format question/réponse que les IA reprennent.
La performance : les Core Web Vitals
Google mesure trois indicateurs sur chaque page : le LCP (vitesse d'affichage du contenu principal, cible < 2,5 s), l'INP (réactivité aux interactions, cible < 200 ms) et le CLS (stabilité visuelle, cible < 0,1). Ils influencent directement votre positionnement.
Les coupables habituels d'un site généré rapidement : images non optimisées (servez du WebP ou AVIF, dimensionnez correctement), polices chargées depuis un CDN tiers qui bloquent le rendu, et 500 Ko de JavaScript pour afficher trois paragraphes. Testez avec PageSpeed Insights - pas sur votre machine de dev.
Ce qu'on oublie toujours : légal, accessibilité, maintenance
- Mentions légales : obligatoires en France, même pour un site vitrine. Identité de l'éditeur, hébergeur, contact.
- RGPD et cookies : si vous déposez des cookies non essentiels (analytics, pubs), il vous faut un bandeau de consentement. Si vous n'en déposez pas, dites-le dans une politique de confidentialité - c'est un argument de confiance.
- Accessibilité : contrastes suffisants, navigation au clavier, textes alternatifs. C'est à la fois une obligation morale, un facteur SEO et, de plus en plus, une obligation légale.
- La maintenance : un site n'est pas un objet fini. Dépendances à mettre à jour, certificat SSL, sauvegardes, monitoring. Le site « fini » qui n'est plus touché pendant deux ans est une faille de sécurité en sursis.
La checklist complète
| Élément | Pourquoi | Effort |
|---|---|---|
| Rendu serveur (SSR/SSG) | Être lisible par tous les robots | Choix d'architecture |
| Title + meta description par page | Positionnement et taux de clic | Faible |
| Hiérarchie Hn propre | Compréhension du contenu | Faible |
| sitemap.xml dynamique | Découverte des pages | Faible |
| robots.txt correct | Contrôle du crawl | Très faible |
| JSON-LD (données structurées) | SEO enrichi + GEO | Moyen |
| llms.txt | Index pour les IA | Très faible |
| Core Web Vitals au vert | Positionnement + UX | Moyen |
| Mentions légales + confidentialité | Conformité | Faible |
| Plan de maintenance | Sécurité et pérennité | Continu |
Alors, l'IA ou pas ?
L'IA, évidemment. Je construis moi-même avec ces outils tous les jours. Mais un prompt ne remplace pas une architecture : il faut savoir quoi demander. La différence entre un site qui décolle et un site invisible ne se voit pas dans une démo - elle se voit dans la Search Console trois mois plus tard.
Vous avez un projet de site et vous voulez partir sur des fondations saines ? Parlons-en.
