In den fünf Monaten seit der Veröffentlichung von Qwen2-VL haben Entwickler darauf basierende neue Modelle erstellt und wertvolles Feedback gegeben. Jetzt führt Qwen2.5-VL verbesserte Fähigkeiten ein, darunter präzise Analyse von Bildern, Texten und Diagrammen sowie Objektlokalisierung mit strukturierten JSON-Ausgaben. Es versteht lange Videos, erkennt Schlüsselereignisse und fungiert als Agent, der mit Tools auf Computern und Telefonen interagiert. Die Architektur des Modells umfasst dynamische Videoverarbeitung und einen optimierten ViT-Encoder für verbesserte Geschwindigkeit und Genauigkeit.
Qwen2.5-VL-32B | GPT-4.1 Nano | |
---|---|---|
Anbieter | ||
Webseite | ||
Veröffentlichungsdatum | Mar 25, 2025 1 Monat ago | Apr 14, 2025 3 Wochen ago |
Modalitäten | Text Bilder Video | Text Bilder |
API-Anbieter | - | OpenAI API |
Datum des Wissensstandes | Unbekannt | - |
Open Source | Ja (Quelle) | Nein |
Preisgestaltung Eingabe | $0 | $0.10 pro Million Token |
Preisgestaltung Ausgabe | $0 | $0.40 pro Million Token |
MMLU | 78.4% Quelle | 80.1% Quelle |
MMLU Pro | 49.5% | - |
MMMU | 70% | 55.4% Quelle |
HellaSwag | Nicht verfügbar | - |
HumanEval | Nicht verfügbar | - |
MATH | 82.2% | - |
GPQA | 46.0% Diamond | 50.3% Diamond Quelle |
IFEval | Nicht verfügbar | 74.5% Quelle |
Array | - | - |
AIME 2024 | - | 29.4% Quelle |
AIME 2025 | - | - |
Array | - | - |
Array | - | - |
Array | - | 66.9% Quelle |
Array | - | 56.2% Image Reasoning Quelle |
Mobile Anwendung | - |
Compare AI. Test. Benchmarks. Mobile Chatbot-Apps, Sketch
Copyright © 2025 All Right Reserved.