RAG : comment faire répondre une IA sur vos données internes (contrats, jurisprudence, doctrine, manuels) avec citation des sources.

TL;DR

RAG (Retrieval-Augmented Generation) = un agent IA qui répond à partir de vos données internes, pas seulement de la connaissance générale d'un LLM.
Adapté pour : cabinets juridiques (jurisprudence + précédents internes), fiduciaires (doctrine fiscale), bureaux d'études (références projets), organismes de formation (manuels), tout knowledge worker.
Coût d'un RAG sérieux pour PME : 15-30 KCHF en cloud EU, 25-60 KCHF en on-premise pour les exigences LPD strictes.
Le piège n°1 : oublier les garde-fous anti-hallucination. Sans citation systématique des sources, l'outil devient dangereux.

Qu'est-ce qu'un système RAG (concrètement)

Un système RAG répond à une question en deux temps :

Retrieval (récupération) : il cherche dans votre base documentaire les passages pertinents (contrats, notes, jurisprudence, manuels…)
Generation (génération) : il rédige une réponse synthétique en s'appuyant sur ces passages, avec citation des sources

À la différence de ChatGPT générique :

ChatGPT répond à partir de ce qu'il a appris pendant son entraînement (pas vos données)
RAG répond à partir de vos documents — donc avec votre terminologie, vos précédents, votre jurisprudence interne

C'est ce qui transforme l'IA d'un assistant générique en un expert métier aligné avec votre organisation.

Pour qui c'est pertinent

Le RAG crée le plus de valeur dans les organisations où :

La connaissance est dispersée dans beaucoup de documents non-structurés (PDF, Word, emails, intranet)
Les collaborateurs experts passent du temps à chercher des précédents, références, doctrine
L'expertise se perd quand un senior part (knowledge management défaillant)
Les juniors ont du mal à monter en compétence parce qu'ils n'ont pas accès rapidement à la mémoire de l'organisation

Cas d'usage matures 2026 :

Cabinets juridiques : RAG sur jurisprudence + précédents internes + doctrine. Économie 4-8h par dossier complexe.
Fiduciaires : RAG sur doctrine fiscale + arrêts du TF + notes internes. Idem.
Bureaux d'études et architectes : RAG sur réglementations (SIA, OFEN, OFEV) + projets passés + comptes-rendus de chantier.
Organismes de formation : RAG sur manuels + supports de cours + Q&A des sessions précédentes.
PME industrielles : RAG sur documentation produit + manuels d'utilisation + tickets SAV historiques (pour le support technique).
Cabinets RH / paie : RAG sur CCT applicables + jurisprudence du travail + procédures internes.

Les 4 composants techniques d'un RAG

Composant 1 — L'indexation (préparer la donnée)

Vos documents (PDF, Word, intranet…) sont :

Découpés en chunks (passages de 500-1500 caractères)
Convertis en embeddings vectoriels (représentations mathématiques du sens)
Stockés dans une base vectorielle (Pinecone, Weaviate, pgvector…)

Le piège : la qualité du découpage impacte fortement la qualité des résultats. Découper en milieu de phrase ou ignorer les tableaux structurés tue la pertinence.

Composant 2 — Le moteur de retrieval

Quand un utilisateur pose une question :

La question est elle-même convertie en embedding
Le moteur cherche les chunks les plus similaires sémantiquement dans la base
Optionnel : un re-ranking améliore la pertinence (lexical + sémantique combinés)

Le piège : ne pas faire que du sémantique. Pour des termes techniques précis (références d'arrêt, codes ISO, noms de produits), un mix sémantique + recherche lexicale (BM25) donne de bien meilleurs résultats.

Composant 3 — Le LLM générateur

Les chunks retrouvés sont fournis au LLM (Claude, GPT, Mistral, Llama) en contexte, avec une instruction claire :

"Réponds à cette question en t'appuyant uniquement sur les passages fournis. Cite les sources de chaque affirmation. Si aucun passage ne couvre la question, dis-le explicitement."

Le piège : ne pas donner cette instruction → le LLM hallucine et invente des références qui n'existent pas.

Composant 4 — L'interface et les garde-fous

L'utilisateur final voit :

La réponse synthétique
Les sources citées (avec lien vers le document original)
Un score de confiance
Un avertissement si la base est ancienne ou incomplète sur le sujet

Coûts réels d'un RAG pour PME suisse en 2026

Option 1 — Cloud EU (Mistral, Claude EU, Azure OpenAI EU)

Build typique : 15-30 KCHF

Architecture, indexation initiale, calibration, garde-fous, interface
Adapté pour les PME 20-100 collaborateurs avec données pas ultra-sensibles

Run mensuel : 400-1200 CHF

Appels au LLM (variable selon volume)
Hosting de la base vectorielle
Monitoring, logs

Conformité LPD : OK pour la plupart des secteurs, à condition de signer un DPA avec le fournisseur cloud.

Option 2 — On-premise (Mistral local, Llama 3 local)

Build typique : 25-60 KCHF

Tout ce qui est dans l'option 1, plus l'installation et la configuration de l'infra dédiée
Adapté pour secteurs régulés (juridique, finance, santé) ou contrats clients exigeants

Infrastructure : 8-15 KCHF one-shot (serveur GPU dédié), puis 200-500 CHF/mois en run + maintenance.

Maintenance évolutive : 5-12 KCHF/an (re-indexation, mise à jour des modèles, sécurité).

Conformité LPD : excellent. Vos données ne sortent jamais de votre infrastructure.

Les pièges qu'on voit (et comment les éviter)

Piège 1 — Hallucinations de sources

Sans contraintes strictes, le LLM peut inventer des références (un arrêt du TF qui n'existe pas, un article de loi inexistant). En contexte juridique ou fiscal, c'est inacceptable.

Solution : politique de réponse stricte. "Si aucune source n'est trouvée, refuse de répondre." Implémenter un vérificateur post-génération qui valide que toutes les références citées existent réellement dans la base.

Piège 2 — Base documentaire sale

Si votre base contient des doublons, des versions obsolètes, des documents contradictoires — le RAG va vous renvoyer du bruit ou des conseils contradictoires.

Solution : nettoyage et structuration de la base avant indexation. Identifier la version "source de vérité" pour chaque type de document.

Piège 3 — Pas de gestion de la fraîcheur

La jurisprudence évolue. La doctrine fiscale aussi. Un RAG qui répond avec un arrêt cassé en appel l'année dernière est dangereux.

Solution : pipeline de re-indexation régulier (quotidien, hebdo selon vitesse de changement) + métadonnées de date sur chaque document + avertissement automatique quand la source la plus pertinente date de > X mois.

Piège 4 — Sur-estimation de l'autonomie

Un RAG n'est pas un avocat, ni un fiscaliste, ni un médecin. Il est un outil de productivité pour les experts humains. La signature et la responsabilité restent humaines.

Solution : positionner le RAG comme un outil d'aide à la recherche, pas comme un système de décision. Cela protège juridiquement et culturellement.

Piège 5 — Ignorer la formation des utilisateurs

La qualité d'un RAG dépend en grande partie de la formulation de la question. Un utilisateur formé obtient 2-3x plus de valeur qu'un utilisateur livré à lui-même.

Solution : workshop d'1-2h sur "comment poser la bonne question" en début d'usage.

Plan de déploiement type (cabinet 10-30 personnes)

Mois 1 — Cadrage et architecture

Audit documentaire (volume, types, qualité, sensibilité)
Choix architecture : cloud EU vs on-premise
Choix du LLM (Mistral, Claude, GPT, Llama)
Définition des garde-fous métier

Mois 2-3 — Build et indexation

Installation infrastructure
Pipeline d'ingestion de la base documentaire
Calibration du retrieval (test sur 50-100 questions étalon)
Interface utilisateur + connexion aux outils existants (Outlook, intranet)

Mois 4 — Formation et adoption

Formation 4-6h sur 2 sessions
Workshop "bons prompts" par métier
Pilote sur une cohorte de 5-10 utilisateurs avant rollout
Hypercare 30 jours

Mois 5+ — Run et amélioration continue

Monitoring qualité (taux de pertinence, taux d'escalade)
Enrichissement progressif de la base
Itérations sur les prompts et les garde-fous

FAQ

Quelle différence entre un RAG et un fine-tuning ? Le fine-tuning modifie le modèle lui-même (long, cher, peu flexible). Le RAG injecte vos données en contexte à chaque requête (rapide, flexible, mise à jour facile). En 2026, le RAG est le standard pour la plupart des cas d'usage entreprise.

Quels documents peut-on indexer ? PDF (incluant les scans avec OCR préalable), Word, PowerPoint, HTML, Markdown, emails, transcriptions audio. Les tableaux et données structurées (Excel, bases de données) demandent un traitement spécifique.

Quel volume de données un RAG peut-il gérer ? De quelques milliers à plusieurs millions de documents. Le coût et la complexité augmentent avec le volume, mais ne sont pas un blocage.

Combien de temps pour mettre en place un RAG en production ? 3-5 mois pour une PME bien préparée (donnée propre, exigences claires). 6-9 mois si la donnée doit être nettoyée d'abord ou si les exigences évoluent en cours de route.

Mes données restent-elles confidentielles ? Oui, à condition de choisir le bon hosting (cloud EU avec DPA, ou on-premise) et d'imposer dans le cadrage que les données ne sont pas utilisées pour entraîner les modèles externes (clause standard chez les fournisseurs sérieux).

RAG en entreprise : comment connecter Claude/ChatGPT à vos données privées