Qwen2.5-VL-32B

In den fünf Monaten seit der Veröffentlichung von Qwen2-VL haben Entwickler darauf basierende neue Modelle erstellt und wertvolles Feedback gegeben. Jetzt führt Qwen2.5-VL verbesserte Fähigkeiten ein, darunter präzise Analyse von Bildern, Texten und Diagrammen sowie Objektlokalisierung mit strukturierten JSON-Ausgaben. Es versteht lange Videos, erkennt Schlüsselereignisse und fungiert als Agent, der mit Tools auf Computern und Telefonen interagiert. Die Architektur des Modells umfasst dynamische Videoverarbeitung und einen optimierten ViT-Encoder für verbesserte Geschwindigkeit und Genauigkeit.

GPT-4.1 Nano

Qwen2.5-VL-32BGPT-4.1 Nano
Webseite ?
Anbieter ?
Chat ?
Veröffentlichungsdatum ?
Modalitäten ?
Text ?
Bilder ?
Video ?
Text ?
Bilder ?
API-Anbieter ?
-
OpenAI API
Datum des Wissensstandes ?
Unbekannt
-
Open Source ?
Ja (Quelle)
Nein
Preisgestaltung Eingabe ?
$0
$0.10 pro Million Token
Preisgestaltung Ausgabe ?
$0
$0.40 pro Million Token
MMLU ?
78.4%
Quelle
80.1%
Quelle
MMLU-Pro ?
49.5%
-
MMMU ?
70%
55.4%
Quelle
HellaSwag ?
Nicht verfügbar
-
HumanEval ?
Nicht verfügbar
-
MATH ?
82.2%
-
GPQA ?
46.0%
Diamond
50.3%
Diamond
Quelle
IFEval ?
Nicht verfügbar
74.5%
Quelle
SimpleQA ?
-
-
AIME 2024
-
29.4%
Quelle
AIME 2025
-
-
Aider Polyglot ?
-
-
LiveCodeBench v5 ?
-
-
Global MMLU (Lite) ?
-
66.9%
Quelle
MathVista ?
-
56.2%
Image Reasoning
Quelle
Mobile Anwendung
-

LLMs vergleichen

Kommentar hinzufügen


10%
Unsere Website verwendet Cookies.

Datenschutz und Cookie-Richtlinie: Diese Website verwendet Cookies. Wenn Sie die Seite weiter nutzen, stimmen Sie deren Verwendung zu.