Héberger un grand modèle de langage open-source sur sa propre infrastructure n'est plus réservé aux géants de la tech. En 2026, des modèles open-weight performants, des serveurs d'inférence matures et la quantization rendent l'opération accessible à une PME ou une ETI motivée. La vraie question n'est plus « est-ce possible ? » mais « de quel matériel ai-je besoin, et combien ça coûte ? ».
Cet article est volontairement pratique et chiffré. Il complète notre guide stratégique sur le LLM on-premise en entreprise : ici, nous ne refaisons pas le « pourquoi », nous traitons le « comment » matériel et budgétaire. Dimensionnement GPU et VRAM, quantization, choix du serveur d'inférence, fourchettes de coûts et étapes concrètes de déploiement.
L'objectif : vous donner les repères pour estimer un projet d'hébergement de LLM, dialoguer utilement avec un prestataire ou une équipe technique, et éviter les deux erreurs classiques — surdimensionner le matériel par prudence, ou sous-dimensionner et obtenir des performances décevantes.
Quels modèles open-weight en 2026 ?
En 2026, plusieurs familles de modèles open-weight offrent un excellent rapport qualité/déployabilité pour un usage en entreprise. Le choix dépend de votre cas d'usage, de votre exigence de souveraineté et du matériel disponible.
Les principales familles :
- Mistral — référence française et européenne, orientée souveraineté, avec des modèles open-weight (par exemple de la gamme Mistral Medium). Le choix naturel quand la localisation et l'indépendance priment.
- Llama (Meta) — l'une des familles open source les plus répandues, large écosystème, déclinée en plusieurs tailles pour s'adapter au matériel.
- Qwen — très performante sur de nombreux benchmarks, disponible dans une large gamme de tailles, populaire pour l'auto-hébergement.
- DeepSeek — réputée pour son rapport performance/coût, notamment sur le raisonnement.
Le réflexe à avoir : la taille du modèle (en milliards de paramètres) détermine à la fois la qualité et les besoins matériels. Un modèle de 7 à 8 milliards de paramètres tourne sur un seul GPU grand public et suffit à beaucoup de tâches (extraction, classification, assistance simple). Un modèle de 70 milliards offre une qualité bien supérieure mais demande un matériel sérieux. Commencer par le plus petit modèle qui passe vos tests de qualité est presque toujours la bonne stratégie.
Dimensionner la VRAM et le GPU
Le facteur matériel déterminant pour héberger un LLM est la VRAM (la mémoire du GPU) : c'est elle qui détermine si un modèle tient sur votre carte. La règle d'estimation est simple à retenir.
En pleine précision (16 bits), un modèle consomme environ 2 Go de VRAM par milliard de paramètres, auxquels s'ajoute de la mémoire pour le contexte et le traitement. Des ordres de grandeur utiles :
- Modèle 7-8 milliards de paramètres — environ 14-16 Go de VRAM en pleine précision, soit une carte type RTX 4090 (24 Go) ou L40S. Quantizé, il tient sur des cartes plus modestes.
- Modèle 13-14 milliards — environ 26-30 Go, soit une carte de 48 Go (type L40S) ou deux GPU plus petits.
- Modèle 70 milliards — environ 140 Go en pleine précision, soit deux GPU H100 (80 Go chacun), ou un seul avec une quantization agressive.
Au-delà de la VRAM, comptez aussi sur la RAM système, un stockage rapide pour charger les poids, et une bande passante GPU suffisante pour les configurations multi-cartes. Le dimensionnement dépend enfin du débit visé : servir un assistant pour 5 personnes n'a pas les mêmes besoins que servir 500 requêtes simultanées. La règle d'or : dimensionner sur le modèle qui passe vos évals, pas sur le plus gros modèle disponible.
La quantization pour réduire les besoins
La quantization est la technique qui rend l'auto-hébergement accessible : elle réduit la précision numérique des poids du modèle (de 16 bits vers 8 ou 4 bits), divisant d'autant les besoins en VRAM avec une perte de qualité souvent minime.
Concrètement :
- 16 bits (pleine précision) — qualité de référence, mais besoins VRAM maximaux (~2 Go par milliard de paramètres).
- 8 bits — divise par deux les besoins VRAM (~1 Go par milliard), avec une perte de qualité généralement négligeable. Un bon défaut pour beaucoup d'usages.
- 4 bits — divise encore par deux (~0,5 Go par milliard), permettant de faire tenir un modèle de 70 milliards sur un seul GPU de 48 Go. La perte de qualité est plus perceptible mais souvent acceptable.
L'impact est spectaculaire : un modèle de 70 milliards de paramètres qui exige ~140 Go en 16 bits ne demande plus que ~40 Go en 4 bits, le faisant passer d'une configuration multi-GPU coûteuse à une carte unique. La quantization est donc le premier levier pour réduire la facture matérielle. La bonne démarche : tester votre modèle quantizé sur vos cas réels et vérifier que la qualité reste suffisante avant d'investir dans plus de matériel. C'est exactement le type d'arbitrage que nous menons dans nos projets d'outil interne sur mesure.
Serveurs d'inférence : vLLM, Ollama, TGI
Pour servir un modèle en production, vous avez besoin d'un serveur d'inférence : un logiciel qui charge le modèle, gère les requêtes et optimise le débit. Trois solutions dominent en 2026, chacune avec son terrain de jeu.
- vLLM — le standard pour la production à fort débit. Optimisé pour servir de nombreuses requêtes simultanées avec une gestion mémoire efficace. C'est le choix pour un service partagé par de nombreux utilisateurs ou une charge soutenue.
- Ollama — le plus simple à mettre en route. Idéal pour démarrer, prototyper, ou servir une équipe restreinte. Installation rapide, gestion des modèles facilitée, parfait pour valider un cas d'usage avant de passer à l'échelle.
- TGI (Text Generation Inference) — solution éprouvée de l'écosystème Hugging Face, bon compromis entre performance et intégration, appréciée pour le déploiement structuré.
La logique de choix : commencez avec Ollama pour prototyper et valider la qualité sur vos cas, puis passez à vLLM ou TGI pour la mise en production à l'échelle. Tous exposent une API compatible avec les standards du marché, ce qui facilite l'intégration et, surtout, la réversibilité : votre application dialogue avec une API stable, indépendamment du serveur et du modèle sous-jacent.
Fourchettes de coûts CAPEX et OPEX
Le coût d'un hébergement de LLM se décompose en investissement matériel (CAPEX) et coûts récurrents d'exploitation (OPEX). Voici des fourchettes indicatives pour cadrer un budget, à affiner selon votre contexte.
Côté CAPEX (matériel), ordres de grandeur indicatifs :
- Configuration d'entrée — un GPU type RTX 4090 (24 Go) pour servir un modèle 7-8B quantizé : quelques milliers d'euros pour la carte, plus le serveur. Suffisant pour démarrer ou une petite équipe.
- Configuration intermédiaire — un GPU type L40S (48 Go) pour des modèles plus gros ou plus d'utilisateurs : de l'ordre de la dizaine de milliers d'euros.
- Configuration haut de gamme — un ou plusieurs H100 (80 Go) pour des modèles de 70B en bonne précision et un fort débit : plusieurs dizaines de milliers d'euros par carte.
Côté OPEX : électricité (un GPU sous charge consomme plusieurs centaines de watts), hébergement et refroidissement si datacenter, et surtout les compétences d'exploitation (interne ou prestataire). Une alternative au CAPEX est la location de GPU chez un hébergeur européen, qui transforme l'investissement en coût mensuel et facilite le démarrage. Le calcul de rentabilité face au cloud se fait sur votre volume : plus le volume est élevé et stable, plus l'on-premise s'amortit vite. Nous détaillons ce comparatif dans notre guide du RAG sécurisé.
Les étapes de déploiement
Déployer un LLM open-source en interne suit une progression en étapes claires, du prototype à la production. Respecter cet ordre évite de surinvestir avant d'avoir validé la valeur.
- Définir le cas d'usage et les critères de qualité — à quoi sert le modèle, et comment mesurer s'il fait correctement le travail (vos évals).
- Prototyper avec Ollama sur un petit modèle quantizé, sur une machine modeste, pour valider la faisabilité et la qualité sans investir.
- Choisir le modèle et la quantization qui passent vos critères de qualité au moindre coût matériel.
- Dimensionner le matériel selon le modèle retenu et le débit cible (nombre d'utilisateurs et de requêtes simultanées).
- Passer en production avec vLLM ou TGI, derrière une API stable et un contrôle d'accès.
- Mettre en place la supervision — monitoring des performances, de la consommation et de la disponibilité.
- Industrialiser — mises à jour de modèles, tests de non-régression, plan de capacité.
L'erreur fréquente est de sauter le prototype et de commander du matériel haut de gamme « pour être tranquille ». Le prototype révèle souvent qu'un modèle plus petit suffit, divisant la facture. Avancer par validation successive est à la fois moins risqué et moins coûteux.
Garder une architecture réversible
Quel que soit le modèle et le matériel choisis, concevez votre déploiement pour rester réversible : pouvoir changer de modèle, de serveur d'inférence ou même revenir au cloud sans réécrire votre application. C'est ce qui protège votre investissement à 2-5 ans.
Les bonnes pratiques de réversibilité :
- Couche d'abstraction du modèle — votre application appelle une API interne stable, jamais directement un modèle ou un serveur précis. Changer de Llama à Mistral, ou d'on-premise à cloud, ne touche pas votre code métier.
- API compatible avec les standards — les serveurs d'inférence exposent une API standardisée, ce qui rend le modèle interchangeable.
- Standards ouverts type MCP — pour connecter vos outils et données sans dépendance figée.
- Possession des données et des évals — vos prompts, jeux de tests et bases restent chez vous et réutilisables avec n'importe quel modèle.
Avec cette architecture, votre investissement on-premise n'est jamais un cul-de-sac : si un meilleur modèle open-weight sort, ou si votre charge évolue, vous basculez sans tout reconstruire. C'est l'inverse d'un déploiement figé qu'il faudrait refaire à chaque génération de modèle. Si vous voulez cadrer un projet d'hébergement chiffré et réversible, parlons de votre cas.
FAQ — Héberger un LLM open-source en interne : matériel, coûts et étapes en 2026
Quelle quantité de VRAM faut-il pour héberger un LLM ?
En pleine précision (16 bits), comptez environ 2 Go de VRAM par milliard de paramètres, plus une marge pour le contexte. Un modèle de 7-8B demande donc 14-16 Go, un modèle de 70B environ 140 Go. La quantization en 8 ou 4 bits réduit fortement ces besoins : un modèle de 70B peut tenir sur un seul GPU de 48 Go en 4 bits. Dimensionnez sur le modèle qui passe vos tests de qualité, pas sur le plus gros.
Quel GPU choisir pour un LLM open-source en entreprise ?
Pour démarrer ou servir une petite équipe avec un modèle 7-8B quantizé, une carte type RTX 4090 (24 Go) suffit. Pour des modèles plus gros ou plus d'utilisateurs, une L40S (48 Go) est un bon palier. Pour des modèles de 70B en bonne précision et un fort débit, on passe sur des H100 (80 Go), éventuellement en multi-cartes. Le choix dépend de la taille du modèle et du débit visé.
La quantization dégrade-t-elle beaucoup la qualité ?
Pas tant que cela dans la plupart des cas. La quantization en 8 bits entraîne une perte généralement négligeable tout en divisant par deux les besoins VRAM. En 4 bits, la perte est plus perceptible mais souvent acceptable, et elle permet de faire tenir de gros modèles sur un seul GPU. La bonne pratique est de tester votre modèle quantizé sur vos cas réels et de valider la qualité avant d'investir dans plus de matériel.
Quel serveur d'inférence utiliser : vLLM, Ollama ou TGI ?
Ollama est le plus simple pour prototyper et servir une équipe restreinte. vLLM est le standard pour la production à fort débit avec de nombreuses requêtes simultanées. TGI offre un bon compromis et une intégration soignée à l'écosystème Hugging Face. La démarche recommandée : prototyper avec Ollama, puis passer à vLLM ou TGI pour la mise en production à l'échelle.
Combien coûte l'hébergement d'un LLM en interne ?
Le CAPEX matériel va de quelques milliers d'euros pour une configuration d'entrée (GPU 24 Go, modèle 7-8B quantizé) à plusieurs dizaines de milliers d'euros par carte pour du haut de gamme (H100, modèles 70B). S'ajoute l'OPEX : électricité, refroidissement et compétences d'exploitation. La location de GPU chez un hébergeur européen permet de transformer le CAPEX en coût mensuel. La rentabilité face au cloud dépend de votre volume d'usage.