- Le coup de fil qui a tout déclenché
- Le problème réel de Saveurs Méditerranéennes
- La décision : un chatbot RAG sur mesure
- Les défis techniques — le vrai travail
- L’architecture complète du système
- Les résultats aujourd’hui
- Ce que j’ai appris
- Conclusion — Ce que ça change vraiment
- Vous avez un projet similaire ?
Le coup de fil qui a tout déclenché
Février 2026. Meriem, gérante de Saveurs Méditerranéennes à Marseille, m’appelle.
Elle gère une société de traiteur halal. Seule. Avec des commandes, de la production, et des dizaines de messages par jour sur WhatsApp, Instagram et son site.
Mon moment Eureka 💡
Je me suis posé la question :
- ✅ Je sais construire des pipelines RAG en Python
- ✅ Je sais déployer sur VPS avec Docker
- ✅ Je sais intégrer un widget sur WordPress
Pourquoi Meriem continuerait-elle à répondre manuellement à des questions qu’un modèle peut traiter en 2 secondes pour 0.007€ ?
Le problème réel de Saveurs Méditerranéennes
Les questions revenaient en boucle. Chaque jour. Sans exception.
- Est-ce que vos plats sont certifiés halal ?
- Vous faites l’osban ? La mloukhiya ? Le couscous aux 7 légumes ?
- Quels sont les allergènes dans le tajine ?
- Quel délai pour une commande de 80 personnes ?
- Vous livrez dans les Bouches-du-Rhône ?
- Vous parlez arabe ? (beaucoup de clients arabophones)
Aucun chatbot générique ne pouvait répondre à ça. Ni Tidio. Ni Intercom. Ni un bot FAQ basique.
Il fallait un système qui connaisse vraiment le métier de Fatima. Ses plats. Ses prix. Ses contraintes. En français, en anglais, en arabe.
La décision : un chatbot RAG sur mesure
Mars 2026. Je propose à Meriem un chatbot RAG. Pas un SaaS. Pas un abonnement mensuel à 200€. Un système qui lui appartient.
Stack technique
Embeddings : HuggingFace paraphrase-multilingual-mpnet-base-v2 — support FR/EN/AR natif
LLM : Claude Sonnet via API Anthropic — génération des réponses finales
Backend : FastAPI — API REST légère et rapide
Frontend : Widget JavaScript flottant intégré sur WordPress
Infra : VPS OVH + Docker Compose + Nginx Proxy Manager + certificat SSL Let’s Encrypt
Les défis techniques — le vrai travail
Défi #1 : Le multilingue arabe dans les embeddings
Premier obstacle. Les embeddings standards sont mauvais sur l’arabe dialectal maghrébin. « مقرون بالبيض » ne matche pas « macarona » dans un modèle anglophone.
- ✅ J’ai testé 4 modèles HuggingFace multilingues sur un benchmark maison
- ✅ paraphrase-multilingual-mpnet-base-v2 donnait le meilleur recall sur les requêtes mélangées darija/français
- ✅ J’ai ajouté des alias dans la knowledge base : chaque plat a son nom en 3 langues
Défi #2 : Réduire les tokens sans perdre la qualité
Approche naïve : envoyer tout le document à Claude. Résultat : 4 000 tokens par requête. Coût explosif. Réponses lentes.
Défi #3 : Le contexte métier halal et les allergènes
Claude est un modèle généraliste. Il ne sait pas que l’osban est une saucisse farcie tunisienne. Il ne connaît pas les certifications halal françaises.
- ✅ J’ai construit une knowledge base structurée : 47 fiches produits, 12 FAQ métier, 3 documents de politique commerciale
- ✅ Un system prompt strict interdit à Claude d’inventer des informations allergènes
- ✅ Si le retrieval ne trouve rien de pertinent : réponse de fallback vers contact humain
Défi #4 : L’intégration WordPress sans toucher au thème
Meriem a un site WordPress existant. Pas question de tout casser.
- ✅ Widget JavaScript autonome injecté via un simple snippet dans le footer
- ✅ Le widget appelle l’API FastAPI déployée sur le VPS OVH
- ✅ CORS configuré pour n’accepter que le domaine traiteur-mediterraneen-marseille.fr
- ✅ Nginx Proxy Manager gère le SSL et le reverse proxy proprement
Défi #5 : La sécurité de la clé API Anthropic
La clé API ne doit jamais être exposée côté client. Jamais.
- ✅ La clé est stockée dans un fichier .env sur le VPS, hors du repo Git
- ✅ Toutes les requêtes vers Anthropic passent par le backend FastAPI
- ✅ Rate limiting sur l’API pour éviter les abus
L’architecture complète du système
Voici comment les pièces s’assemblent concrètement.
- L’utilisateur écrit dans le widget WordPress → requête HTTPS vers FastAPI sur le VPS
- FastAPI reçoit la question → LlamaIndex cherche les chunks pertinents dans l’index vectoriel
- Top-5 chunks + question originale → envoyés à Claude Sonnet via API Anthropic
- Claude génère une réponse contextualisée dans la langue de l’utilisateur
- La réponse revient au widget en moins de 3 secondes
- Docker Compose orchestre FastAPI + le service d’indexation sur le même VPS
- Nginx Proxy Manager gère le SSL, le routage, et la sécurité périmétrique
Les résultats aujourd’hui
📊 Chatbot Saveurs Méditerranéennes en chiffres
Le chatbot répond aux questions halal, allergènes, délais, plats spécifiques. En français, anglais, arabe. 24h/24.
Meriem ne répond plus aux questions répétitives. Elle répond aux vraies demandes : devis complexes, événements sur mesure, clients grands comptes.
Ce que j’ai appris
1. Le RAG n’est pas magique — la knowledge base est tout.
Un bon LLM avec une mauvaise base de données donne de mauvaises réponses. J’ai passé 40% du temps de projet à structurer les données de Meriem. Pas à coder.
2. Le multilingue commence aux embeddings, pas au LLM.
Claude parle arabe. Mais si le retrieval rate la requête en arabe, Claude n’a rien à dire. Le modèle d’embedding est le vrai goulot d’étranglement multilingue.
3. Les PME n’ont pas besoin de GPT-4 Turbo.
Claude Sonnet suffit largement pour des questions métier structurées. Le coût est 3 à 4 fois inférieur aux modèles premium. Pour Meriem, c’est décisif.
4. Docker sur VPS = liberté totale.
Pas de vendor lock-in. Pas d’abonnement SaaS. Le système tourne sur un VPS OVH à 7€/mois. Meriem possède son infrastructure.
5. Le fallback humain est non négociable.
Quand le chatbot ne sait pas, il doit le dire clairement et rediriger vers Meriem. Un chatbot qui invente des informations allergènes est un risque légal et sanitaire réel.
Conclusion — Ce que ça change vraiment
Ce projet m’a confirmé une chose. L’IA n’est pas réservée aux grandes entreprises. Une traiteure marseillaise de 3 personnes peut avoir un chatbot aussi performant qu’une chaîne de restauration.
La prochaine étape pour Saveurs Méditerranéennes :
- Intégration d’un formulaire de devis automatique dans le chatbot
- Connexion à n8n pour notifier Meriem sur WhatsApp à chaque lead qualifié
- Mise à jour automatique de la knowledge base depuis un Google Sheet
Le vrai luxe en 2026, c’est de ne plus répondre aux mêmes questions. C’est de laisser la machine faire ce qu’elle fait bien — pour que les humains fassent ce qu’ils font mieux.
Vous avez un projet similaire ?
🎁 Parlons de votre chatbot IA
30 minutes d’audit gratuit. Je vous dis si un chatbot RAG est pertinent pour votre activité — et combien ça coûte réellement.
