WEVIA Brain V4 — Renforcement Souverain

🎯 Vue d'ensemble Souveraineté LIVE

État actuel du brain WEVIA Sovereign V4 · 18 providers cascade · 2 LOCAUX 100% souverains + 16 cloud providers

Économie potentielle annuelle

~5052€/an

Migration Anthropic Pro → cascade Sovereign cible €0/mois

🇲🇦 Modèles LOCAUX Souverains (priorité 1 cible)

Ces modèles tournent sur S204 — ZÉRO dépendance externe, ZÉRO coût, ZÉRO rate limit

📊 Cascade Sovereign actuelle (18 providers)

Tier system actuel avec promotion progressive LOCAL EN PRIORITÉ

🥇 TIER 1 — ULTRA-FAST (5-77ms) · Cloud free tier

Cerebras-fast (llama3.1-8b) Cerebras-think (qwen-3-235b) Groq (llama-3.3-70b)

🥈 TIER 2 — HIGH VOLUME · Cloud free

Cloudflare-AI Gemini 2.0 Flash

🥉 TIER 3-5 — BACKUP · Cloud free

SambaNova NVIDIA-NIM Mistral Groq-OSS HF-Space HF-Router OpenRouter GitHub-Models Together DeepSeek Alibaba-Qwen

🏆 TIER 6 LOCAL (last-resort actuellement, cible: TIER 1)

Ollama-WevalBrain v4 (qwen3:4b · gguf · Q4_K_M · 2.5GB · context 16k) Ollama-Qwen3:4b (gguf · Q4_K_M · 2.5GB)

🚀 Roadmap Renforcement V4 (5 étapes)

Plan progressif pour basculer LOCAL EN PRIORITÉ 1, sans casser la stabilité serveur

1.✅ FAIT — Ollama réinstallé · binary 43MB, service active running, 2 modèles loaded (WevalBrain v4 + Qwen3:4b chargés en RAM 5.3GB)

2.✅ FAIT — Proxy Anthropic-compatible · /api/wevia-anthropic/v1/messages cascade Cerebras → sovereign → Anthropic · SDK Python testé OK 480ms €0

3.🔄 EN COURS — Promotion LOCAL en TIER 1 · Modifier /opt/sovereign-api/sovereign-api.py pour mettre Ollama-WevalBrain v4 + Qwen3:4b EN PREMIER (avant Cerebras cloud) · à faire quand load < 20

4.📊 PROCHAIN — Mesurer économies réelles · API stats : count calls cloud vs local par jour · projection mensuelle €

5.🧠 VISION — Auto-train WevalBrain v5 · Utiliser Qdrant KB (255 entries 768d) + chat history pour fine-tune iteratif · objectif: brain WEVAL maitrise 100% domaine consulting