Comment j’ai construit un chatbot IA RAG pour une traiteure marseillaise — de l’idée au déploiement

par Avr 7, 2026Intelligence Artificielle, Intégration Web

Le coup de fil qui a tout déclenché

Février 2026. Meriem, gérante de Saveurs Méditerranéennes à Marseille, m’appelle.

« Je passe mes journées à répondre aux mêmes questions. Oui c’est halal. Oui on fait l’osban. Non on ne livre pas le dimanche. Je n’en peux plus. »

Elle gère une société de traiteur halal. Seule. Avec des commandes, de la production, et des dizaines de messages par jour sur WhatsApp, Instagram et son site.

⚠️ Le vrai coût caché : Répondre manuellement aux questions récurrentes lui volait 2 à 3 heures chaque jour. Du temps pris sur la production, sur les clients, sur sa vie.

Mon moment Eureka 💡

Je me suis posé la question :

  • ✅ Je sais construire des pipelines RAG en Python
  • ✅ Je sais déployer sur VPS avec Docker
  • ✅ Je sais intégrer un widget sur WordPress

Pourquoi Meriem continuerait-elle à répondre manuellement à des questions qu’un modèle peut traiter en 2 secondes pour 0.007€ ?

Le problème réel de Saveurs Méditerranéennes

Les questions revenaient en boucle. Chaque jour. Sans exception.

  • Est-ce que vos plats sont certifiés halal ?
  • Vous faites l’osban ? La mloukhiya ? Le couscous aux 7 légumes ?
  • Quels sont les allergènes dans le tajine ?
  • Quel délai pour une commande de 80 personnes ?
  • Vous livrez dans les Bouches-du-Rhône ?
  • Vous parlez arabe ? (beaucoup de clients arabophones)

Aucun chatbot générique ne pouvait répondre à ça. Ni Tidio. Ni Intercom. Ni un bot FAQ basique.

Il fallait un système qui connaisse vraiment le métier de Fatima. Ses plats. Ses prix. Ses contraintes. En français, en anglais, en arabe.

La décision : un chatbot RAG sur mesure

Mars 2026. Je propose à Meriem un chatbot RAG. Pas un SaaS. Pas un abonnement mensuel à 200€. Un système qui lui appartient.

Stack technique

📐 Technologies utilisées :Orchestration RAG : LlamaIndex — indexation et retrieval des documents métier
Embeddings : HuggingFace paraphrase-multilingual-mpnet-base-v2 — support FR/EN/AR natif
LLM : Claude Sonnet via API Anthropic — génération des réponses finales
Backend : FastAPI — API REST légère et rapide
Frontend : Widget JavaScript flottant intégré sur WordPress
Infra : VPS OVH + Docker Compose + Nginx Proxy Manager + certificat SSL Let’s Encrypt

Les défis techniques — le vrai travail

Défi #1 : Le multilingue arabe dans les embeddings

Premier obstacle. Les embeddings standards sont mauvais sur l’arabe dialectal maghrébin. « مقرون بالبيض » ne matche pas « macarona » dans un modèle anglophone.

  • ✅ J’ai testé 4 modèles HuggingFace multilingues sur un benchmark maison
  • ✅ paraphrase-multilingual-mpnet-base-v2 donnait le meilleur recall sur les requêtes mélangées darija/français
  • ✅ J’ai ajouté des alias dans la knowledge base : chaque plat a son nom en 3 langues

Défi #2 : Réduire les tokens sans perdre la qualité

Approche naïve : envoyer tout le document à Claude. Résultat : 4 000 tokens par requête. Coût explosif. Réponses lentes.

⚠️ Solution : Chunking sémantique avec LlamaIndex + retrieval top-5 uniquement. On n’envoie à Claude que les 5 passages les plus pertinents. Résultat : -74% de tokens consommés.

Défi #3 : Le contexte métier halal et les allergènes

Claude est un modèle généraliste. Il ne sait pas que l’osban est une saucisse farcie tunisienne. Il ne connaît pas les certifications halal françaises.

  • ✅ J’ai construit une knowledge base structurée : 47 fiches produits, 12 FAQ métier, 3 documents de politique commerciale
  • ✅ Un system prompt strict interdit à Claude d’inventer des informations allergènes
  • ✅ Si le retrieval ne trouve rien de pertinent : réponse de fallback vers contact humain

Défi #4 : L’intégration WordPress sans toucher au thème

Meriem a un site WordPress existant. Pas question de tout casser.

  • ✅ Widget JavaScript autonome injecté via un simple snippet dans le footer
  • ✅ Le widget appelle l’API FastAPI déployée sur le VPS OVH
  • ✅ CORS configuré pour n’accepter que le domaine traiteur-mediterraneen-marseille.fr
  • ✅ Nginx Proxy Manager gère le SSL et le reverse proxy proprement

Défi #5 : La sécurité de la clé API Anthropic

La clé API ne doit jamais être exposée côté client. Jamais.

  • ✅ La clé est stockée dans un fichier .env sur le VPS, hors du repo Git
  • ✅ Toutes les requêtes vers Anthropic passent par le backend FastAPI
  • ✅ Rate limiting sur l’API pour éviter les abus

L’architecture complète du système

Voici comment les pièces s’assemblent concrètement.

  • L’utilisateur écrit dans le widget WordPress → requête HTTPS vers FastAPI sur le VPS
  • FastAPI reçoit la question → LlamaIndex cherche les chunks pertinents dans l’index vectoriel
  • Top-5 chunks + question originale → envoyés à Claude Sonnet via API Anthropic
  • Claude génère une réponse contextualisée dans la langue de l’utilisateur
  • La réponse revient au widget en moins de 3 secondes
  • Docker Compose orchestre FastAPI + le service d’indexation sur le même VPS
  • Nginx Proxy Manager gère le SSL, le routage, et la sécurité périmétrique

Les résultats aujourd’hui

📊 Chatbot Saveurs Méditerranéennes en chiffres

-74%
Tokens consommés vs approche naïve
0.007€
Coût moyen par question traitée
3
Langues supportées (FR / EN / AR)
47
Fiches produits dans la knowledge base

Le chatbot répond aux questions halal, allergènes, délais, plats spécifiques. En français, anglais, arabe. 24h/24.

Meriem ne répond plus aux questions répétitives. Elle répond aux vraies demandes : devis complexes, événements sur mesure, clients grands comptes.

Ce que j’ai appris

1. Le RAG n’est pas magique — la knowledge base est tout.
Un bon LLM avec une mauvaise base de données donne de mauvaises réponses. J’ai passé 40% du temps de projet à structurer les données de Meriem. Pas à coder.

2. Le multilingue commence aux embeddings, pas au LLM.
Claude parle arabe. Mais si le retrieval rate la requête en arabe, Claude n’a rien à dire. Le modèle d’embedding est le vrai goulot d’étranglement multilingue.

3. Les PME n’ont pas besoin de GPT-4 Turbo.
Claude Sonnet suffit largement pour des questions métier structurées. Le coût est 3 à 4 fois inférieur aux modèles premium. Pour Meriem, c’est décisif.

4. Docker sur VPS = liberté totale.
Pas de vendor lock-in. Pas d’abonnement SaaS. Le système tourne sur un VPS OVH à 7€/mois. Meriem possède son infrastructure.

5. Le fallback humain est non négociable.
Quand le chatbot ne sait pas, il doit le dire clairement et rediriger vers Meriem. Un chatbot qui invente des informations allergènes est un risque légal et sanitaire réel.

Conclusion — Ce que ça change vraiment

Ce projet m’a confirmé une chose. L’IA n’est pas réservée aux grandes entreprises. Une traiteure marseillaise de 3 personnes peut avoir un chatbot aussi performant qu’une chaîne de restauration.

La prochaine étape pour Saveurs Méditerranéennes :

  • Intégration d’un formulaire de devis automatique dans le chatbot
  • Connexion à n8n pour notifier Meriem sur WhatsApp à chaque lead qualifié
  • Mise à jour automatique de la knowledge base depuis un Google Sheet

Le vrai luxe en 2026, c’est de ne plus répondre aux mêmes questions. C’est de laisser la machine faire ce qu’elle fait bien — pour que les humains fassent ce qu’ils font mieux.

Vous avez un projet similaire ?

Votre équipe répond aux mêmes questions chaque jour. Vos clients attendent des réponses à 22h. Il existe une solution — et elle coûte moins cher que vous ne le pensez.

🎁 Parlons de votre chatbot IA

30 minutes d’audit gratuit. Je vous dis si un chatbot RAG est pertinent pour votre activité — et combien ça coûte réellement.

Réserver mon audit gratuit
Voir mes services IA

💡 Bonus : Chaque audit inclut une estimation de coût par question et un schéma d’architecture adapté à votre stack existante.