🎯 Vue d'ensemble Souveraineté LIVE
État actuel du brain WEVIA Sovereign V4 · 18 providers cascade · 2 LOCAUX 100% souverains + 16 cloud providers
Économie potentielle annuelle
~5052€/an
Migration Anthropic Pro → cascade Sovereign cible €0/mois
📊 Cascade Sovereign actuelle (18 providers)
Tier system actuel avec promotion progressive LOCAL EN PRIORITÉ
🥇 TIER 1 — ULTRA-FAST (5-77ms) · Cloud free tier
Cerebras-fast (llama3.1-8b)
Cerebras-think (qwen-3-235b)
Groq (llama-3.3-70b)
🥈 TIER 2 — HIGH VOLUME · Cloud free
Cloudflare-AI
Gemini 2.0 Flash
🥉 TIER 3-5 — BACKUP · Cloud free
SambaNova
NVIDIA-NIM
Mistral
Groq-OSS
HF-Space
HF-Router
OpenRouter
GitHub-Models
Together
DeepSeek
Alibaba-Qwen
🏆 TIER 6 LOCAL (last-resort actuellement, cible: TIER 1)
Ollama-WevalBrain v4 (qwen3:4b · gguf · Q4_K_M · 2.5GB · context 16k)
Ollama-Qwen3:4b (gguf · Q4_K_M · 2.5GB)
🚀 Roadmap Renforcement V4 (5 étapes)
Plan progressif pour basculer LOCAL EN PRIORITÉ 1, sans casser la stabilité serveur
1.✅ FAIT — Ollama réinstallé · binary 43MB, service active running, 2 modèles loaded (WevalBrain v4 + Qwen3:4b chargés en RAM 5.3GB)
2.✅ FAIT — Proxy Anthropic-compatible · /api/wevia-anthropic/v1/messages cascade Cerebras → sovereign → Anthropic · SDK Python testé OK 480ms €0
3.🔄 EN COURS — Promotion LOCAL en TIER 1 · Modifier /opt/sovereign-api/sovereign-api.py pour mettre Ollama-WevalBrain v4 + Qwen3:4b EN PREMIER (avant Cerebras cloud) · à faire quand load < 20
4.📊 PROCHAIN — Mesurer économies réelles · API stats : count calls cloud vs local par jour · projection mensuelle €
5.🧠 VISION — Auto-train WevalBrain v5 · Utiliser Qdrant KB (255 entries 768d) + chat history pour fine-tune iteratif · objectif: brain WEVAL maitrise 100% domaine consulting