Retour aux guides
    RAG28 avril 20269 min de lecture

    RAG en entreprise : comment connecter Claude/ChatGPT à vos données privées

    RAG : comment faire répondre une IA sur vos données internes (contrats, jurisprudence, doctrine, manuels) avec citation des sources.

    RAGClaudeChatGPTDonnées privéesKnowledge

    TL;DR

    • RAG (Retrieval-Augmented Generation) = un agent IA qui répond à partir de vos données internes, pas seulement de la connaissance générale d'un LLM.
    • Adapté pour : cabinets juridiques (jurisprudence + précédents internes), fiduciaires (doctrine fiscale), bureaux d'études (références projets), organismes de formation (manuels), tout knowledge worker.
    • Coût d'un RAG sérieux pour PME : 15-30 KCHF en cloud EU, 25-60 KCHF en on-premise pour les exigences LPD strictes.
    • Le piège n°1 : oublier les garde-fous anti-hallucination. Sans citation systématique des sources, l'outil devient dangereux.

    Qu'est-ce qu'un système RAG (concrètement)

    Un système RAG répond à une question en deux temps :

    1. Retrieval (récupération) : il cherche dans votre base documentaire les passages pertinents (contrats, notes, jurisprudence, manuels…)
    2. Generation (génération) : il rédige une réponse synthétique en s'appuyant sur ces passages, avec citation des sources

    À la différence de ChatGPT générique :

    • ChatGPT répond à partir de ce qu'il a appris pendant son entraînement (pas vos données)
    • RAG répond à partir de vos documents — donc avec votre terminologie, vos précédents, votre jurisprudence interne

    C'est ce qui transforme l'IA d'un assistant générique en un expert métier aligné avec votre organisation.

    Pour qui c'est pertinent

    Le RAG crée le plus de valeur dans les organisations où :

    • La connaissance est dispersée dans beaucoup de documents non-structurés (PDF, Word, emails, intranet)
    • Les collaborateurs experts passent du temps à chercher des précédents, références, doctrine
    • L'expertise se perd quand un senior part (knowledge management défaillant)
    • Les juniors ont du mal à monter en compétence parce qu'ils n'ont pas accès rapidement à la mémoire de l'organisation

    Cas d'usage matures 2026 :

    • Cabinets juridiques : RAG sur jurisprudence + précédents internes + doctrine. Économie 4-8h par dossier complexe.
    • Fiduciaires : RAG sur doctrine fiscale + arrêts du TF + notes internes. Idem.
    • Bureaux d'études et architectes : RAG sur réglementations (SIA, OFEN, OFEV) + projets passés + comptes-rendus de chantier.
    • Organismes de formation : RAG sur manuels + supports de cours + Q&A des sessions précédentes.
    • PME industrielles : RAG sur documentation produit + manuels d'utilisation + tickets SAV historiques (pour le support technique).
    • Cabinets RH / paie : RAG sur CCT applicables + jurisprudence du travail + procédures internes.

    Les 4 composants techniques d'un RAG

    Composant 1 — L'indexation (préparer la donnée)

    Vos documents (PDF, Word, intranet…) sont :

    1. Découpés en chunks (passages de 500-1500 caractères)
    2. Convertis en embeddings vectoriels (représentations mathématiques du sens)
    3. Stockés dans une base vectorielle (Pinecone, Weaviate, pgvector…)

    Le piège : la qualité du découpage impacte fortement la qualité des résultats. Découper en milieu de phrase ou ignorer les tableaux structurés tue la pertinence.

    Composant 2 — Le moteur de retrieval

    Quand un utilisateur pose une question :

    1. La question est elle-même convertie en embedding
    2. Le moteur cherche les chunks les plus similaires sémantiquement dans la base
    3. Optionnel : un re-ranking améliore la pertinence (lexical + sémantique combinés)

    Le piège : ne pas faire que du sémantique. Pour des termes techniques précis (références d'arrêt, codes ISO, noms de produits), un mix sémantique + recherche lexicale (BM25) donne de bien meilleurs résultats.

    Composant 3 — Le LLM générateur

    Les chunks retrouvés sont fournis au LLM (Claude, GPT, Mistral, Llama) en contexte, avec une instruction claire :

    "Réponds à cette question en t'appuyant uniquement sur les passages fournis. Cite les sources de chaque affirmation. Si aucun passage ne couvre la question, dis-le explicitement."

    Le piège : ne pas donner cette instruction → le LLM hallucine et invente des références qui n'existent pas.

    Composant 4 — L'interface et les garde-fous

    L'utilisateur final voit :

    • La réponse synthétique
    • Les sources citées (avec lien vers le document original)
    • Un score de confiance
    • Un avertissement si la base est ancienne ou incomplète sur le sujet

    Coûts réels d'un RAG pour PME suisse en 2026

    Option 1 — Cloud EU (Mistral, Claude EU, Azure OpenAI EU)

    Build typique : 15-30 KCHF

    • Architecture, indexation initiale, calibration, garde-fous, interface
    • Adapté pour les PME 20-100 collaborateurs avec données pas ultra-sensibles

    Run mensuel : 400-1200 CHF

    • Appels au LLM (variable selon volume)
    • Hosting de la base vectorielle
    • Monitoring, logs

    Conformité LPD : OK pour la plupart des secteurs, à condition de signer un DPA avec le fournisseur cloud.

    Option 2 — On-premise (Mistral local, Llama 3 local)

    Build typique : 25-60 KCHF

    • Tout ce qui est dans l'option 1, plus l'installation et la configuration de l'infra dédiée
    • Adapté pour secteurs régulés (juridique, finance, santé) ou contrats clients exigeants

    Infrastructure : 8-15 KCHF one-shot (serveur GPU dédié), puis 200-500 CHF/mois en run + maintenance.

    Maintenance évolutive : 5-12 KCHF/an (re-indexation, mise à jour des modèles, sécurité).

    Conformité LPD : excellent. Vos données ne sortent jamais de votre infrastructure.

    Les pièges qu'on voit (et comment les éviter)

    Piège 1 — Hallucinations de sources

    Sans contraintes strictes, le LLM peut inventer des références (un arrêt du TF qui n'existe pas, un article de loi inexistant). En contexte juridique ou fiscal, c'est inacceptable.

    Solution : politique de réponse stricte. "Si aucune source n'est trouvée, refuse de répondre." Implémenter un vérificateur post-génération qui valide que toutes les références citées existent réellement dans la base.

    Piège 2 — Base documentaire sale

    Si votre base contient des doublons, des versions obsolètes, des documents contradictoires — le RAG va vous renvoyer du bruit ou des conseils contradictoires.

    Solution : nettoyage et structuration de la base avant indexation. Identifier la version "source de vérité" pour chaque type de document.

    Piège 3 — Pas de gestion de la fraîcheur

    La jurisprudence évolue. La doctrine fiscale aussi. Un RAG qui répond avec un arrêt cassé en appel l'année dernière est dangereux.

    Solution : pipeline de re-indexation régulier (quotidien, hebdo selon vitesse de changement) + métadonnées de date sur chaque document + avertissement automatique quand la source la plus pertinente date de > X mois.

    Piège 4 — Sur-estimation de l'autonomie

    Un RAG n'est pas un avocat, ni un fiscaliste, ni un médecin. Il est un outil de productivité pour les experts humains. La signature et la responsabilité restent humaines.

    Solution : positionner le RAG comme un outil d'aide à la recherche, pas comme un système de décision. Cela protège juridiquement et culturellement.

    Piège 5 — Ignorer la formation des utilisateurs

    La qualité d'un RAG dépend en grande partie de la formulation de la question. Un utilisateur formé obtient 2-3x plus de valeur qu'un utilisateur livré à lui-même.

    Solution : workshop d'1-2h sur "comment poser la bonne question" en début d'usage.

    Plan de déploiement type (cabinet 10-30 personnes)

    Mois 1 — Cadrage et architecture

    • Audit documentaire (volume, types, qualité, sensibilité)
    • Choix architecture : cloud EU vs on-premise
    • Choix du LLM (Mistral, Claude, GPT, Llama)
    • Définition des garde-fous métier

    Mois 2-3 — Build et indexation

    • Installation infrastructure
    • Pipeline d'ingestion de la base documentaire
    • Calibration du retrieval (test sur 50-100 questions étalon)
    • Interface utilisateur + connexion aux outils existants (Outlook, intranet)

    Mois 4 — Formation et adoption

    • Formation 4-6h sur 2 sessions
    • Workshop "bons prompts" par métier
    • Pilote sur une cohorte de 5-10 utilisateurs avant rollout
    • Hypercare 30 jours

    Mois 5+ — Run et amélioration continue

    • Monitoring qualité (taux de pertinence, taux d'escalade)
    • Enrichissement progressif de la base
    • Itérations sur les prompts et les garde-fous

    FAQ

    Quelle différence entre un RAG et un fine-tuning ? Le fine-tuning modifie le modèle lui-même (long, cher, peu flexible). Le RAG injecte vos données en contexte à chaque requête (rapide, flexible, mise à jour facile). En 2026, le RAG est le standard pour la plupart des cas d'usage entreprise.

    Quels documents peut-on indexer ? PDF (incluant les scans avec OCR préalable), Word, PowerPoint, HTML, Markdown, emails, transcriptions audio. Les tableaux et données structurées (Excel, bases de données) demandent un traitement spécifique.

    Quel volume de données un RAG peut-il gérer ? De quelques milliers à plusieurs millions de documents. Le coût et la complexité augmentent avec le volume, mais ne sont pas un blocage.

    Combien de temps pour mettre en place un RAG en production ? 3-5 mois pour une PME bien préparée (donnée propre, exigences claires). 6-9 mois si la donnée doit être nettoyée d'abord ou si les exigences évoluent en cours de route.

    Mes données restent-elles confidentielles ? Oui, à condition de choisir le bon hosting (cloud EU avec DPA, ou on-premise) et d'imposer dans le cadrage que les données ne sont pas utilisées pour entraîner les modèles externes (clause standard chez les fournisseurs sérieux).

    Pour aller plus loin

    Passons à l'action

    60 minutes de diagnostic gratuit pour identifier comment ces principes s'appliquent à votre PME suisse romande.

    Réserver mon diagnostic gratuit