Leader sur KernelBench-Hard
Claude Fable 5 bat des records sur la génération autonome de kernels CUDA, notamment int4 GEMM. Par contre, il arrive dernier sur le benchmark SUPERCUTE de raisonnement byte-level.
@june_2026_snapshot — 14 juinModèles testés en conditions réelles sur 5 tâches. Mise à jour automatique chaque vendredi à 8h.
Kimi K2.7-Code reste le modèle par défaut de Zetamind. MiniMax M3 est le fallback créatif/raisonnement. Nex-N2-Pro reste un fallback rapide et gratuit.
Échelle 1–5. Les scores sont attribués par un juge indépendant (kimi-k2.7-code).
5 tâches, 3 modèles, scores 1–5, latences réelles.
| Modèle | Raisonnement | Créatif | Code | Format | Veille | Total |
|---|---|---|---|---|---|---|
|
minimax-m3
latence moyenne ~22s
|
5 | 5 | 4 | 5 | 4 | 23 |
|
kimi-k2.7-code
latence moyenne ~14s
|
4 | 4 | 5 | 4 | 5 | 22 |
|
nex-n2-pro:free
latence moyenne ~56s
|
4 | 4 | 1 | 4 | 3 | 16 |
Sources datées du 7 au 14 juin 2026. Snap temps réel des discussions sur les modèles ciblés.
Claude Fable 5 bat des records sur la génération autonome de kernels CUDA, notamment int4 GEMM. Par contre, il arrive dernier sur le benchmark SUPERCUTE de raisonnement byte-level.
@june_2026_snapshot — 14 juinEn tête de l'index Artificial Analysis. SWE-Bench Pro 59%, Terminal-Bench 66%, 1M de contexte, multimodal natif, décodage ultra-rapide via MSA.
@ArtificialAnalysis — 14 juinDans un test de 300 inférences, Kimi bat MiniMax 80.0% vs 76.7% pass@1, avec ~38% de tokens en moins et une latence divisée par 2.
@MichaelGannotti — 14 juin397B MoE avec un framework "Agentic Thinking" pour usage d'outils long-horizon. Économise ~20% de tokens sans perte de performance.
@OpenRouter trending — 14 juinEn fonction des benchmarks, voici quel modèle/skill appeler automatiquement selon la demande.
Modèle : kimi-k2.7-code. Skill : fusion-zetamind en mode code. Raison : meilleur code structuré, gestion d'erreurs, latence faible.
Modèle : minimax-m3. Skill : claude-design + fusion-zetamind. Raison : proposition visuelle la plus aboutie et nuancée.
Modèle : minimax-m3. Skill : fusion-zetamind + writing-plans. Raison : décompositions les plus solides et complètes.
Modèle : kimi-k2.7-code. Skill : zetamind-veille + last30days + x_search. Raison : honnêteté sur les limites, contenu sourcé, pas d'invention.
Modèle : nex-agi/nex-n2-pro:free. Skill : fusion-zetamind en fallback. Raison : gratuit, rapide sur les tâches simples, mais à valider systématiquement.
Un extrait de réponse par modèle pour la tâche de direction artistique.