Le sale secret des workflows agentiques
Les agents IA dévorent le cloud — et ils le font avec des manières de table exécrables.
Un workflow agentique n’est plus un simple appel LLM. C’est un système d’agents autonomes multiples, chacun invoquant différents modèles (GPT-5.5 pour le raisonnement, Claude Opus 5 pour le codage, un modèle moins cher pour la synthèse), appelant des outils externes (API, bases de données, interpréteurs Python), et enchaînant ces étapes en graphes d’exécution multi-tours et multi-branches. Ce qui n’était qu’un simple pipeline prompt → réponse est devenu un réseau complexe d’invocations de modèles, d’appels d’outils et de décisions de routage.
(Source : MIT News — Improving the speed and energy-efficiency of AI agents)
Le problème est que chacun de ces composants — les modèles, les outils, l’orchestrateur d’exécution — est géré par une couche différente de la pile. Le fournisseur de LLM gère la mise à l’échelle du modèle. L’ordonnanceur cloud gère l’allocation des GPU. Le framework agentique gère le routage des workflows. Personne n’a une vision d’ensemble.
Le résultat est un gaspillage massif de ressources. Une étude de 2025 du Lawrence Berkeley National Laboratory a projeté que les centres de données IA pourraient consommer jusqu’à 12 % de l’électricité totale des États-Unis d’ici 2028. L’AIE estime que les centres de données consomment déjà 415 TWh par an (~1,5 % de l’électricité mondiale), et la Brookings Institution avertit que cela pourrait approcher 1 050 TWh d’ici 2026 — soit à peu près la consommation d’un pays de taille moyenne.
(Source : IEA — Energy Demand from AI)
(Source : Brookings — Global Energy Demands Within the AI Regulatory Landscape)
« Les workflows agentiques deviennent très complexes et sont rapidement en train de devenir l’épine dorsale de ce que font les fournisseurs de cloud », déclare Gohar Chaudhry, auteur principal de l’article sur Murakkab. Il n’exagère pas — chaque grand fournisseur de cloud dispose désormais d’un framework agentique (Azure AI Agent Service, Google Agent Development Kit, AWS Bedrock Agents), et chacun est confronté au même problème d’allocation des ressources.
(Source : MIT News — 25 juin 2026)
Voici Murakkab : un optimiseur multi-couche pour les systèmes agentiques
Murakkab (arabe pour « composé » ou « composite » — un clin d’œil aux recherches sur les systèmes IA composés chez Microsoft) introduit deux principes architecturaux qui changent fondamentalement la façon dont les workflows agentiques sont déployés :
1. Spécification déclarative du workflow
Au lieu de coder en dur les choix de modèles, les allocations GPU et les configurations d’outils dans le code du workflow, les développeurs décrivent ce que le workflow doit accomplir en langage naturel. Le langage de spécification de Murakkab dissocie la logique applicative de la configuration d’exécution.
Cela signifie qu’un développeur écrit : « Classifiez ce ticket de support, acheminez-le vers la bonne équipe et rédigez une réponse » — et l’optimiseur de Murakkab décide quel modèle gère la classification (un petit modèle rapide), lequel gère la rédaction (un modèle plus performant) et sur quel matériel chaque étape s’exécute.
(Source : arXiv — Murakkab: Resource-Efficient Agentic Workflow Orchestration)
2. Exécution adaptative et consciente des SLO
L’optimiseur guidé par profilage du système évalue en continu les performances du workflow par rapport aux objectifs de niveau de service (SLO) définis par l’utilisateur — généralement un compromis entre précision, latence, coût et énergie. À chaque cycle d’optimisation, l’optimiseur prend en compte la charge actuelle du workflow et les ressources disponibles (y compris les instances spot) et reconfigure dynamiquement :
- Quelle variante de modèle sert chaque étape du workflow
- Combien d’instances GPU sont allouées
- Si les étapes peuvent être colocalisées sur du matériel partagé
- Quand préempter les tâches de faible priorité pour les tâches de haute priorité
L’idée clé est que les ordonnanceurs cloud et les frameworks agentiques existants ne peuvent pas faire cela car ils fonctionnent en silos. L’ordonnanceur cloud ne sait pas que deux étapes de workflow différentes pourraient partager un GPU sans conflit. Le framework agentique ne sait pas qu’un modèle moins cher satisferait l’exigence de précision pour l’étape n°3. Murakkab voit toute la pile.
Les chiffres : des gains d’efficacité réels
L’article sur Murakkab rapporte les résultats de tests sur divers workflows agentiques — y compris des pipelines de génération de code, des chaînes de traitement de données et des tâches de raisonnement multi-modèles. Les chiffres clés sont frappants :
| Métrique | Amélioration | Contexte |
|---|---|---|
| Utilisation des GPU | ↓ 2,8× | Mêmes charges de travail, moins de GPU |
| Consommation d’énergie | ↓ 3,7× | Répond directement à la crise énergétique de l’IA |
| Coût cloud | ↓ 4,3× | Calcul, inférence et orchestration inclus |
| Vitesse d’exécution du workflow | ↑ 3,4× | Grâce à une meilleure allocation des ressources |
| Efficacité énergétique | ↑ 4,5× | Métrique par unité de travail |
(Source : arXiv — Murakkab (2508.18298))
Pour mettre la réduction de coût de 4,3× en perspective : si une entreprise dépense 50 000 $/mois en inférence GPU pour ses workflows agentiques, Murakkab ramène ce montant à environ 11 600 $/mois — sans sacrifier la qualité. Pour les déploiements à grande échelle exécutant des centaines de workflows agentiques simultanés, les économies se chiffrent en millions par an.
Plus important encore, la réduction d’énergie de 3,7× ne concerne pas seulement le coût. À une époque où chaque hyperscaler se démène pour sécuriser l’alimentation électrique de nouveaux centres de données (Microsoft a à lui seul signé des PPA pour plus de 10 GW d’énergie renouvelable), des gains d’efficacité de cette ampleur se traduisent directement par une empreinte carbone réduite et la possibilité de déployer davantage de charges de travail IA sans construire de nouveaux centres de données.
Comment ça fonctionne sous le capot
Le pipeline d’optimisation de Murakkab fonctionne par cycles :
-
Collecte de profils — Le système observe les workflows en cours d’exécution, collectant des données de performance sur chaque combinaison modèle-outil-matériel : percentiles de latence (p50, p95, p99), empreinte mémoire GPU, débit de tokens et consommation d’énergie.
-
Traduction des SLO — Les objectifs définis par l’utilisateur (« latence max de 500 ms pour l’étape de classification », « précision min de 95 % pour la génération de code ») sont traduits en un problème d’optimisation multidimensionnel.
-
Recherche de configuration — L’optimiseur explore la frontière de Pareto entre précision, latence, coût et énergie. Il utilise une visibilité globale sur tous les workflows en cours d’exécution pour identifier les opportunités de colocalisation — deux workflows qui ont tous deux besoin d’une étape de synthèse peuvent partager une seule instance GPU, par exemple.
-
Reconfiguration dynamique — L’exécution adaptative applique la configuration optimale, en échangeant à chaud les points de terminaison des modèles et en réallouant les ressources GPU sans interrompre les workflows en cours.
Ce qui rend cela novateur, c’est que les systèmes existants traitent chaque workflow agentique comme une boîte noire isolée. Le workflow appelle un modèle, le fournisseur de modèle le sert, le cloud facture. Murakkab ouvre la boîte noire et raisonne sur l’ensemble de la pile — ce qu’aucun Kubernetes, vLLM ou plateforme d’orchestration LLM existante ne peut faire aujourd’hui.
Pourquoi c’est important maintenant (et ce que cela signifie pour l’écosystème)
Le timing de la publication de Murakkab n’est pas une coïncidence. Trois tendances convergentes rendent cette recherche urgente :
1. La réalité multi-modèle
En 2024, la plupart des déploiements d’agents IA utilisaient un seul modèle (généralement GPT-4 ou Claude). En 2026, chaque workflow agentique sérieux utilise plusieurs modèles — un modèle de raisonnement pour la planification, un modèle rapide pour l’appel d’outils, un modèle spécialisé pour la génération de code, et parfois un modèle open-weight pour les données sensibles. Chaque modèle a des caractéristiques de performance, des profils de coût et des exigences matérielles différents.
Ce modèle multi-modèle est désormais la norme, pas l’exception. La liste Forbes AI 50 2026 montre que 78 % des meilleures entreprises privées d’IA livrent des systèmes agentiques multi-modèles. Mais ajuster manuellement quel modèle gère quelle tâche à travers des dizaines d’étapes de workflow est un cauchemar combinatoire. Murakkab automatise cela.
2. Le réveil énergétique
L’industrie de l’IA fait face à un problème de crédibilité en matière de durabilité. Le CPU Vera et le GPU Rubin de NVIDIA — tous deux annoncés au GTC 2026 — promettent des améliorations significatives de l’efficacité au niveau matériel. Mais l’efficacité matérielle seule ne résoudra pas le problème si le logiciel continue de gaspiller des cycles.
Comme l’a clairement montré le Sommet des leaders de l’IA du G7 en juin 2026, les gouvernements scrutent de plus en plus l’impact environnemental de l’IA. La ministre française de l’IA, Clara Chappaz, a explicitement appelé à une « efficacité par conception » dans l’infrastructure IA lors du sommet. Murakkab, en tant que système de recherche ouvert (article arXiv, licence MIT), représente exactement le type d’avancée en matière d’efficacité logicielle que les décideurs politiques exigent.
3. L’adoption de l’IA en entreprise à grande échelle
Les prévisions de Gartner pour les dépenses en agents IA prédisent que les dépenses des entreprises en plateformes d’IA agentique atteindront 41 milliards de dollars d’ici 2028. Mais le plus grand obstacle à l’adoption n’est pas la capacité des modèles — c’est la prévisibilité des coûts.
Lorsqu’un seul workflow agentique peut lancer 5 points de terminaison de modèles différents dans 3 régions cloud et générer une facture imprévisible, les directeurs financiers deviennent nerveux. L’optimisation des coûts basée sur les SLO de Murakkab offre le type de prévisibilité budgétaire dont les entreprises ont besoin pour passer des projets pilotes aux déploiements en production.
Murakkab vs. solutions existantes : où il se situe
| Système | Périmètre | Optimisation multi-couche | Multi-tenant | Conscient de l’énergie |
|---|---|---|---|---|
| vLLM / TGI | Service de modèle unique | ❌ | ✅ | ❌ |
| Kubernetes + GPU operator | Orchestration de conteneurs | ❌ | ✅ | ❌ |
| LangGraph / CrewAI | Logique de workflow | ❌ | ❌ | ❌ |
| Murakkab | Workflow complet (full-stack) | ✅ | ✅ | ✅ |
Murakkab ne remplace aucun de ces systèmes — il se situe au-dessus d’eux. Il utilise des serveurs de modèles existants (vLLM, TGI) et l’orchestration de conteneurs (Kubernetes), mais ajoute un plan d’optimisation multi-couche qui raisonne sur l’ensemble du workflow, pas seulement sur des composants individuels.
L’analogue le plus proche dans le monde de l’infrastructure est quelque chose comme l’ordonnanceur Peloton d’Uber pour les charges de travail big data — un système qui comprenait le DAG complet d’un job Spark et pouvait optimiser l’allocation des ressources globalement. Murakkab fait de même pour les workflows agentiques.
Limites et questions ouvertes
L’article sur Murakkab est lucide sur ses limites actuelles :
- Latence de démarrage à froid — L’optimiseur guidé par profilage a besoin d’une période de chauffe pour collecter suffisamment de données de performance. Pour les modèles de workflow nouveaux ou peu fréquents, le système revient à des valeurs par défaut prudentes.
- Indépendant du modèle, mais pas des outils — Bien que Murakkab puisse optimiser entre différents fournisseurs de LLM, l’optimisation entre fournisseurs d’outils (différentes passerelles API, différents backends de base de données) est un problème plus difficile car les caractéristiques de performance des outils sont moins prévisibles que l’inférence de modèle.
- Prototype de recherche — Murakkab est un système de recherche, pas un produit. L’article provient du MIT et de Microsoft Research, et bien que le code soit open-source, il n’y a pas encore de service géré ou de support entreprise.
- Charge de la définition des SLO — La spécification déclarative est puissante mais oblige les développeurs à réfléchir explicitement aux compromis précision-latence-coût. Pour les équipes habituées à « appeler GPT-5.5 et voir ce qui se passe », c’est un changement culturel.
FAQ
Q : Murakkab est-il un produit commercial ou un projet de recherche ?
C’est un projet de recherche du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) du MIT en collaboration avec Microsoft Research. L’article a été publié sur arXiv en août 2025, et l’article du MIT News (25 juin 2026) marque ses débuts publics. Le code est open-source, mais il n’y a pas de service géré.
Q : Puis-je utiliser Murakkab avec mes workflows LangGraph ou CrewAI existants ?
En théorie, oui — Murakkab est conçu comme une couche d’orchestration qui se situe en dessous de la définition du workflow. Cependant, l’intégration nécessite l’implémentation de l’interface de spécification déclarative, ce qui n’est pas un remplacement direct. Attendez-vous à ce que des adaptateurs communautaires émergent si le système gagne en popularité.
Q : Comment Murakkab se compare-t-il aux futures améliorations d’efficacité de NVIDIA sur Vera/Rubin ?
Ils sont complémentaires. Les améliorations matérielles de NVIDIA (CPU Vera + GPU Rubin) optimisent au niveau du silicium. Murakkab optimise au niveau de l’orchestration logicielle. Combinés, ils pourraient offrir des gains d’efficacité multiplicatifs — une amélioration de 2× de l’efficacité matérielle × une amélioration de 3,7× de l’efficacité logicielle = environ 7× de mieux au total.
Q : Murakkab fonctionne-t-il avec des modèles open-weight comme Llama 4.5 ?
Oui. Murakkab est indépendant du modèle. Il peut router les étapes du workflow vers n’importe quel modèle qui expose une API compatible, y compris les modèles open-weight auto-hébergés. En fait, les modèles open-weight bénéficient davantage de l’optimisation de Murakkab car leurs caractéristiques de déploiement (mémoire GPU, débit de tokens) varient plus largement que les modèles API closed-source.
Q : Quel est l’inconvénient de la réduction de coût de 4,3× ? Y a-t-il des compromis ?
Le chiffre de 4,3× représente la réduction maximale observée sur les workflows testés. Les résultats réels varieront en fonction de la complexité du workflow, de la diversité des modèles utilisés et du niveau d’agressivité des SLO. Des exigences de latence plus strictes réduisent la marge d’optimisation. Mais même les configurations prudentes ont montré des réductions de coût de 2 à 3×.
Pour aller plus loin
- Murakkab: Resource-Efficient Agentic Workflow Orchestration in Cloud Platforms — Article original sur arXiv (août 2025)
- MIT News — Improving the speed and energy-efficiency of AI agents — Article du 25 juin 2026
- IEA — Energy Demand from AI — Analyse de la consommation électrique mondiale des centres de données
- Brookings — Global Energy Demands Within the AI Regulatory Landscape — Avril 2026
- The Agent Report — G7 Summit: AI Leaders Confront Energy and Regulation — Juin 2026
- The Agent Report — AI Agent Market Spending to Reach $41B by 2028 — Juin 2026
- The Agent Report — NVIDIA Vera CPU: Built for Agentic AI at Production Scale — Juin 2026