Spécifications techniques et analyse de Grok 4

Grok 4

Commentaires: 0

4314

377

Position dans le classement général au
Juillet 2026

Évaluation des utilisateurs
https://compare-ai.foundtt.com

4.4

Présentation du modèle

Site web Page web du modèle d’IA	Open
Fournisseur L’entité qui fournit ce modèle.	xAI
Chat Entrez un message pour commencer à discuter	Open
Date de sortie Première date de publication du modèle.	1 an ago Jul 09, 2025
Modalités Types de données que ce modèle peut traiter	texte ? images ? voix ? vidéo ?
Fournisseurs d’API Les fournisseurs qui proposent ce modèle. (Cette liste n’est pas exhaustive.)	xAI
Date de mise à jour des connaissances Dernière mise à jour des connaissances du modèle.	-
Open Source Disponibilité du code du modèle pour une utilisation publique.	Non
Tarification d’entrée Coût du traitement des tokens dans vos invites	$3.00 par million de tokens
Tarification de sortie Coût des tokens générés par le modèle	$15.00 par million de tokens
MMLU Massive Multitask Language Understanding - Évalue les connaissances dans 57 domaines, y compris les mathématiques, l’histoire, le droit et plus encore	-
MMLU-Pro Un benchmark MMLU plus robuste avec des questions plus complexes axées sur le raisonnement, un plus grand ensemble de choix et une sensibilité réduite aux invites	-
MMMU Massive Multitask Multimodal Understanding - Évalue la compréhension à travers le texte, les images, l’audio et la vidéo	-
HellaSwag Un benchmark exigeant de complétion de phrases	-
HumanEval Évalue la génération de code et les capacités de résolution de problèmes	-
MATH Évalue les capacités de résolution de problèmes mathématiques à différents niveaux de difficulté	-
GPQA Évalue les connaissances de niveau doctorat en chimie, biologie et physique via des questions à choix multiples nécessitant une expertise approfondie	87.5% Science Source
IFEval Évalue la capacité du modèle à suivre avec précision des instructions de formatage explicites, à générer des sorties appropriées et à maintenir une cohérence dans l’exécution des tâches	-
SimpleQA Évaluation de la précision des questions simples	-
AIME 2024	-
AIME 2025	91.7% Competition Math Source
Aider Polyglot Benchmark de programmation multilingue.	-
LiveCodeBench v5 Benchmark pour la programmation en temps réel	79% Competitive Coding Source
Global MMLU (Lite) Une version simplifiée du benchmark pour évaluer l’universalité des modèles au niveau mondial.	-
MathVista Évalue les capacités de raisonnement mathématique des modèles d’IA dans des contextes visuels	-
Application mobile	Google Play Apple Apps
MathArena ?
Score moyen	89%
AIME 2025 Test basé sur des problèmes issus du concours de mathématiques (American Invitational Mathematics Examination),destiné à évaluer les compétences mathématiques des modèles.	91%
HMMT February 2025 Test basé sur des problèmes du Harvard-MIT Mathematics Tournament, février 2025, destiné à évaluer les compétences mathématiques des modèles.	92%
BRUMO 2025	95%
SMT 2025 Test basé sur des problèmes du Stanford Math Tournament, 2025, destiné à évaluer les compétences mathématiques des modèles.	86%
CMIMC 2025 Test basé sur des problèmes de l’Olympiade mathématique canadienne, 2025, destiné à évaluer les compétences mathématiques des modèles.	83%

Spécifications, analyse et comparaison de Grok 4

Grok 4

Présentation du modèle

MathArena ?

Ajouter un commentaire

Comparer les LLMs