Grok 4

Qwen2.5-VL-32B

Durant les cinq mois depuis la sortie de Qwen2-VL, les développeurs ont construit de nouveaux modèles basés sur celui-ci, apportant des retours précieux. Maintenant, Qwen2.5-VL introduit des capacités améliorées, incluant une analyse précise des images, textes et graphiques, ainsi qu'une localisation d'objets avec des sorties JSON structurées. Il comprend les vidéos longues, identifie les événements clés et fonctionne comme un agent interagissant avec des outils sur ordinateurs et téléphones. L'architecture du modèle comprend un traitement vidéo dynamique et un encodeur ViT optimisé pour une vitesse et une précision améliorées.

Grok 4Qwen2.5-VL-32B
Site web ?
Fournisseur ?
Chat ?
Date de sortie ?
Modalités ?
texte ?
images ?
voix ?
vidéo ?
texte ?
images ?
vidéo ?
Fournisseurs d’API ?
xAI
-
Date de mise à jour des connaissances ?
-
Inconnu
Open Source ?
Non
Oui (Source)
Tarification d’entrée ?
$3.00 par million de tokens
$0
Tarification de sortie ?
$15.00 par million de tokens
$0
MMLU ?
-
78.4%
Source
MMLU-Pro ?
-
49.5%
MMMU ?
-
70%
HellaSwag ?
-
Non disponible
HumanEval ?
-
Non disponible
MATH ?
-
82.2%
GPQA ?
87.5%
Science
Source
46.0%
Diamond
IFEval ?
-
Non disponible
SimpleQA ?
-
-
AIME 2024
-
-
AIME 2025
91.7%
Competition Math
Source
-
Aider Polyglot ?
-
-
LiveCodeBench v5 ?
79%
Competitive Coding
Source
-
Global MMLU (Lite) ?
-
-
MathVista ?
-
-
Application mobile
-

MathArena ?

Score moyen
89%
-
AIME 2025
Test basé sur des problèmes issus du concours de mathématiques (American Invitational Mathematics Examination),destiné à évaluer les compétences mathématiques des modèles.
91%
-
HMMT February 2025
Test basé sur des problèmes du Harvard-MIT Mathematics Tournament, février 2025, destiné à évaluer les compétences mathématiques des modèles.
92%
-
BRUMO 2025
95%
-
SMT 2025
Test basé sur des problèmes du Stanford Math Tournament, 2025, destiné à évaluer les compétences mathématiques des modèles.
86%
-
CMIMC 2025
Test basé sur des problèmes de l’Olympiade mathématique canadienne, 2025, destiné à évaluer les compétences mathématiques des modèles.
83%
-

Comparer les LLMs

Ajouter un commentaire


10%
Notre site utilise des cookies.

Politique de confidentialité et de cookies: ce site utilise des cookies. En continuant à utiliser le site, vous acceptez leur utilisation.