SubQ : premier LLM non-transformeur, 12M tokens de contexte

Réponse directe. Le 5 mai 2026, une startup de Miami appelée Subquadratic a annoncé SubQ : le premier LLM de niveau frontier construit sur une architecture entièrement non-transformeur. Son modèle phare, SubQ 1M-Preview, revendique une fenêtre de contexte native de 12 millions de tokens, des performances comparables à GPT-5.5 et Claude Opus 4.7 sur les benchmarks de code et de raisonnement, et un coût d'inférence cinq fois inférieur à celui de ses concurrents directs. La startup est sortie de stealth avec 29 millions de dollars de seed funding.

Depuis 2017, l'architecture Transformer (« Attention is all you need », Google Brain) est le fondement de pratiquement tous les grands modèles de langage. SubQ remet en cause cette hypothèse de fond. Pour les entreprises qui travaillent sur de gros corpus documentaires — juridique, finance, industrie, R&D — cette rupture architecturale mérite une compréhension précise avant d'en évaluer les implications pratiques.

Le problème fondamental des transformeurs

Le Transformer résout remarquablement bien la compréhension du langage, mais il souffre d'un défaut structurel qui ne peut pas être patchié : sa complexité computationnelle est quadratique par rapport à la longueur de la séquence. Concrètement, doubler la longueur du contexte quadruple la mémoire et le temps de calcul. À 1 million de tokens, les optimisations comme FlashAttention atteignent leurs limites pratiques. Au-delà, les coûts d'inférence deviennent prohibitifs et la vitesse s'effondre.

Pour les entreprises, cela se traduit par des contraintes concrètes. Un contrat de 500 pages représente environ 250 000 tokens — traitable avec Claude Sonnet 4.5 (1M de contexte) mais coûteux en inférence. Une base documentaire de 200 contrats de même taille dépasse le contexte d'un seul passage et impose un découpage en chunks, avec tous les compromis de précision que cela implique. Un dossier médical complet sur 10 ans, une codebase entière d'un ERP, un historique complet de tickets support — ces volumes sont hors de portée d'un traitement intégré dans un transformer standard.

Les solutions actuelles — RAG (Retrieval-Augmented Generation), découpage hiérarchique, résumés intermédiaires — sont efficaces mais introduisent une perte d'information et une complexité architecturale non négligeable. La promesse de SubQ est d'éliminer ce compromis architectural à la racine.

SubQ : l'attention parcimonieuse apprise

SubQ repose sur une innovation architecturale baptisée Subquadratic Sparse Attention (SSA), qui reformule fondamentalement la façon dont un modèle de langage calcule les relations entre les tokens.

Dans un Transformer standard, chaque token calcule son degré d'attention avec tous les autres tokens de la séquence — d'où la complexité quadratique. Les variantes sparses existantes (Longformer, BigBird) contournent partiellement ce problème avec des patterns d'attention fixes (fenêtre locale + tokens globaux). SSA fait quelque chose de différent et conceptuellement plus fort : le modèle apprend dynamiquement, pour chaque token de requête, quels autres tokens sont pertinents, et ne calcule l'attention exacte que sur ce sous-ensemble. La sélection est apprise pendant l'entraînement, pas codée en dur.

Le résultat pratique : la complexité computationnelle et mémoire devient approximativement linéaire avec la longueur de la séquence, même à des contextes très longs. C'est ce qui permet d'atteindre 12 millions de tokens avec une fenêtre fonctionnelle — non pas en dégradant l'attention au-delà d'un seuil, mais en ne la calculant que là où elle apporte de l'information.

Cette approche n'est pas sans précédents théoriques (les Mamba, SSM, Hyena ont exploré des alternatives au Transformer ces deux dernières années), mais SubQ est la première implémentation à atteindre les performances d'un modèle frontier sur les benchmarks de référence avec une architecture pleinement non-transformeur. C'est la différence entre une démonstration de laboratoire et un concurrent commercial crédible.

Performances et coûts : ce que disent les chiffres

Les chiffres annoncés par Subquadratic à la sortie de stealth, s'ils sont confirmés en production indépendante, sont significatifs.

Vitesse d'inférence à 1M tokens : 52× plus rapide que FlashAttention dans les mêmes conditions matérielles. À 12M tokens, l'avantage s'amplifie encore.
Coût d'inférence : environ un cinquième du prix de Claude Opus 4.7 ou GPT-5.5 pour des workloads comparables en contexte long.
Benchmarks Terminal-Bench 2.1 : 76,2 % pour SubQ 1M-Preview, à comparer avec Gemini 3.5 Flash qui annonce le même score. Les benchmarks code et raisonnement sont compétitifs avec les modèles frontier de mai 2026.
Contexte fonctionnel : 12 millions de tokens natifs, sans dégradation progressive de la qualité de rappel que l'on observe sur les Transformers au-delà de leur fenêtre nominale.

Nuance importante : ces chiffres sont ceux annoncés par l'entreprise lors de sa sortie de stealth. Ils n'ont pas encore été vérifiés par des évaluations tierces indépendantes au moment de la publication de cet article. L'histoire des LLMs depuis 2022 montre que les annonces de benchmark des startups émergentes doivent être accueillies avec une prudence méthodologique avant confirmation externe.

Le coût de 29 millions de dollars en seed reste modeste pour un labo de frontier AI — la levée de série A sera déterminante pour comprendre si l'infrastructure d'entraînement peut rivaliser avec les hyperscalers et les grandes maisons sur les prochaines versions.

Cas d'usage entreprise pour les contextes très longs

Si les performances annoncées se confirment en production, SubQ ouvre ou rend économiquement viables des cas d'usage entreprise qui étaient soit impossibles, soit prohibitifs avec les Transformers actuels.

Analyse juridique de gros volumes

Passer l'intégralité d'un portefeuille de contrats (50 à 200 documents de 50 à 200 pages chacun) en un seul contexte pour une analyse croisée de clauses, d'incohérences ou de risques. Avec les Transformers à 1M de contexte, cela impose un découpage qui perd les relations inter-documents. Avec 12M de contexte, un cabinet juridique peut analyser l'ensemble d'un dossier d'acquisition M&A en une seule inférence.

Audit et revue de codebase complète

Charger l'intégralité d'un monorepo — incluant tests, documentation, historique de commits et issues — dans le contexte d'un agent de revue ou d'un assistant de développement. Pour les projets d'outil interne sur mesure à forte base de code, cela change la qualité de l'aide à la maintenance et à la refactorisation.

Analyse longitudinale de données opérationnelles

Plusieurs années de logs de production, l'historique complet d'un ERP ou d'un CRM, les transcriptions exhaustives du support client — des volumes qui dépassent systématiquement les fenêtres actuelles. Un modèle à 12M de tokens permettrait des analyses de tendance et de causalité sans échantillonnage ni perte de contexte temporel.

Documentation technique industrielle

Les entreprises manufacturières et de l'ingénierie travaillent souvent avec des documentations techniques de plusieurs milliers de pages (manuels, spécifications, normes ISO, historiques de maintenance). Un assistant IA capable de tenir l'intégralité de ce corpus en contexte pour répondre à des questions précises ou générer des rapports de conformité représente une valeur opérationnelle directe. Voir notre page automatisation métier pour les industries concernées.

Ce qu'il faut attendre avant d'adopter SubQ

SubQ est en phase Preview. Il faut être précis sur ce que cela implique pour les entreprises.

Maturité de production non établie

Le modèle n'a pas de historique de déploiement en production à l'échelle industrielle. Les problèmes qui apparaissent en production — dérive sur des sessions longues, comportements inattendus sur des domaines spécialisés, latence sous charge élevée, robustesse aux entrées adversariales — ne peuvent être évalués qu'après plusieurs mois de tests en conditions réelles par des utilisateurs externes.

Écosystème d'outillage limité

Les Transformers bénéficient de plusieurs années d'outillage (LangChain, LlamaIndex, Ragas, Langfuse, etc.) optimisé pour leur architecture. Les outils d'évaluation, d'observabilité et d'orchestration pour un modèle SSA en sont à leurs débuts. Construire un pipeline de production robuste autour de SubQ demande plus de travail d'intégration qu'autour de Claude ou GPT-5.

Pérennité de la startup

29 millions de dollars de seed dans le contexte des coûts d'entraînement actuels laisse une piste courte. La série A sera déterminante. Si l'architecture SSA ne passe pas la validation des évaluateurs indépendants, ou si la levée tarde, la roadmap du modèle sera compromise. Pour des projets critiques, ce risque de discontinuité est à prendre en compte.

Notre recommandation : pour les entreprises ayant des besoins en contexte long supérieurs à 1M tokens, lancez une évaluation technique de SubQ sur vos propres données dès que l'API sera disponible en général. Ne l'intégrez pas à un système de production critique avant 12 mois de retour d'expérience externe consolidé. Pour les besoins jusqu'à 1M tokens, Claude Sonnet 4.5 via nos projets de développement reste la référence de production en 2026.

FAQ — SubQ : le premier LLM sans transformeur revendique 12 millions de tokens de contexte

SubQ va-t-il remplacer les Transformers dans les projets d'entreprise ?

Pas à court terme. SubQ est en Preview et doit encore établir sa maturité de production. Les Transformers bénéficient de plusieurs années d'outillage, d'optimisations matérielles (CUDA, TPU) et de validation en production que SubQ n'a pas encore. L'hypothèse plausible est une coexistence : les Transformers restent dominants pour la majorité des cas d'usage, SubQ émerge comme spécialiste des workloads à contexte très long où son avantage architectural est décisif.

La fenêtre de 12M tokens de SubQ rend-elle le RAG obsolète ?

Non, pour deux raisons pratiques. Premièrement, le coût d'inférence à 12M tokens reste significatif, même à 5× moins cher que les concurrents actuels. Pour des requêtes fréquentes sur de gros corpus, un pipeline RAG bien construit reste plus économique. Deuxièmement, l'architecture RAG offre des avantages au-delà du contexte : mise à jour en temps réel du corpus, traçabilité des sources, filtrage de sécurité en amont. Le contexte long et le RAG sont complémentaires, pas substitutifs.

Comment SubQ se compare-t-il à Claude Sonnet 4.5 pour un projet d'entreprise aujourd'hui ?

Claude Sonnet 4.5 est un modèle en production mature, avec un écosystème d'outillage complet (AWS Bedrock, Vertex AI, LangChain, Langfuse), une documentation de sécurité établie et des années de validation en entreprise. SubQ est en Preview sans historique de production. Pour un projet critique en 2026, Claude Sonnet 4.5 reste le choix par défaut. SubQ mérite une évaluation technique pour les cas d'usage spécifiques à très long contexte, dans un contexte expérimental.

L'architecture non-transformeur de SubQ pose-t-elle des problèmes de conformité spécifiques ?

Non : les obligations réglementaires de l'AI Act (transparence, gestion des risques, marquage des contenus générés) s'appliquent indépendamment de l'architecture sous-jacente du modèle. Ce qui compte pour la conformité, c'est le comportement du système IA et la documentation fournie par le provider, pas le choix entre Transformer et SSA. En revanche, l'absence d'historique de validation indépendante de SubQ rend plus difficile la documentation de conformité pour les systèmes haut risque au sens de l'AI Act.

Quand SubQ sera-t-il disponible pour les entreprises européennes ?

Subquadratic n'a pas encore communiqué sur un calendrier de disponibilité dans les régions européennes ni sur les garanties de résidence des données pour les clients UE. C'est un point critique à clarifier avant tout déploiement sur des données soumises au RGPD. En l'absence de garanties explicites de résidence UE, l'utilisation de SubQ sur des données personnelles ou sensibles n'est pas recommandable dans l'immédiat.

SubQ : le premier LLM sans transformeur revendique 12 millions de tokens de contexte