Grok 4

Commentaires: 0
Grok 4 #0
Grok 4 #1
Grok 4 #2
4314
377

Position dans le classement général au
Juin 2026
1
Évaluation des utilisateurs
https://compare-ai.foundtt.com
4.4

Présentation du modèle

Site web
Page web du modèle d’IA
Fournisseur
L’entité qui fournit ce modèle.
Chat
Entrez un message pour commencer à discuter
Date de sortie
Première date de publication du modèle.
10 mois ago
Jul 09, 2025
Modalités
Types de données que ce modèle peut traiter
texte ?
images ?
voix ?
vidéo ?
Fournisseurs d’API
Les fournisseurs qui proposent ce modèle. (Cette liste n’est pas exhaustive.)
xAI
Date de mise à jour des connaissances
Dernière mise à jour des connaissances du modèle.
-
Open Source
Disponibilité du code du modèle pour une utilisation publique.
Non
Tarification d’entrée
Coût du traitement des tokens dans vos invites
$3.00 par million de tokens
Tarification de sortie
Coût des tokens générés par le modèle
$15.00 par million de tokens
MMLU
Massive Multitask Language Understanding - Évalue les connaissances dans 57 domaines, y compris les mathématiques, l’histoire, le droit et plus encore
-
MMLU-Pro
Un benchmark MMLU plus robuste avec des questions plus complexes axées sur le raisonnement, un plus grand ensemble de choix et une sensibilité réduite aux invites
-
MMMU
Massive Multitask Multimodal Understanding - Évalue la compréhension à travers le texte, les images, l’audio et la vidéo
-
HellaSwag
Un benchmark exigeant de complétion de phrases
-
HumanEval
Évalue la génération de code et les capacités de résolution de problèmes
-
MATH
Évalue les capacités de résolution de problèmes mathématiques à différents niveaux de difficulté
-
GPQA
Évalue les connaissances de niveau doctorat en chimie, biologie et physique via des questions à choix multiples nécessitant une expertise approfondie
87.5%
Science
Source
IFEval
Évalue la capacité du modèle à suivre avec précision des instructions de formatage explicites, à générer des sorties appropriées et à maintenir une cohérence dans l’exécution des tâches
-
SimpleQA
Évaluation de la précision des questions simples
-
AIME 2024
-
AIME 2025
91.7%
Competition Math
Source
Aider Polyglot
Benchmark de programmation multilingue.
-
LiveCodeBench v5
Benchmark pour la programmation en temps réel
79%
Competitive Coding
Source
Global MMLU (Lite)
Une version simplifiée du benchmark pour évaluer l’universalité des modèles au niveau mondial.
-
MathVista
Évalue les capacités de raisonnement mathématique des modèles d’IA dans des contextes visuels
-
Application mobile

MathArena ?

Score moyen89%
AIME 2025
Test basé sur des problèmes issus du concours de mathématiques (American Invitational Mathematics Examination),destiné à évaluer les compétences mathématiques des modèles.
91%
HMMT February 2025
Test basé sur des problèmes du Harvard-MIT Mathematics Tournament, février 2025, destiné à évaluer les compétences mathématiques des modèles.
92%
BRUMO 202595%
SMT 2025
Test basé sur des problèmes du Stanford Math Tournament, 2025, destiné à évaluer les compétences mathématiques des modèles.
86%
CMIMC 2025
Test basé sur des problèmes de l’Olympiade mathématique canadienne, 2025, destiné à évaluer les compétences mathématiques des modèles.
83%

Ajouter un commentaire

Comparer les LLMs


10%
Notre site utilise des cookies.

Politique de confidentialité et de cookies: ce site utilise des cookies. En continuant à utiliser le site, vous acceptez leur utilisation.