In den fünf Monaten seit der Veröffentlichung von Qwen2-VL haben Entwickler darauf basierende neue Modelle erstellt und wertvolles Feedback gegeben. Jetzt führt Qwen2.5-VL verbesserte Fähigkeiten ein, darunter präzise Analyse von Bildern, Texten und Diagrammen sowie Objektlokalisierung mit strukturierten JSON-Ausgaben. Es versteht lange Videos, erkennt Schlüsselereignisse und fungiert als Agent, der mit Tools auf Computern und Telefonen interagiert. Die Architektur des Modells umfasst dynamische Videoverarbeitung und einen optimierten ViT-Encoder für verbesserte Geschwindigkeit und Genauigkeit.
Llama 4 Maverick | Qwen2.5-VL-32B | |
---|---|---|
Anbieter | ||
Webseite | ||
Veröffentlichungsdatum | Apr 05, 2025 1 Monat ago | Mar 25, 2025 2 Monate ago |
Modalitäten | Text Bilder Video | Text Bilder Video |
API-Anbieter | Meta AI, Hugging Face, Fireworks, Together, DeepInfra | - |
Datum des Wissensstandes | 2024-08 | Unbekannt |
Open Source | Ja (Quelle) | Ja (Quelle) |
Preisgestaltung Eingabe | Nicht verfügbar | $0 |
Preisgestaltung Ausgabe | Nicht verfügbar | $0 |
MMLU | Nicht verfügbar | 78.4% Quelle |
MMLU Pro | 80.5% Quelle | 49.5% |
MMMU | 73.4% Quelle | 70% |
HellaSwag | Nicht verfügbar | Nicht verfügbar |
HumanEval | Nicht verfügbar | Nicht verfügbar |
MATH | Nicht verfügbar | 82.2% |
GPQA | 69.8% Diamond Quelle | 46.0% Diamond |
IFEval | Nicht verfügbar | Nicht verfügbar |
Array | - | - |
AIME 2024 | - | - |
AIME 2025 | - | - |
Array | - | - |
Array | - | - |
Array | - | - |
Array | - | - |
Mobile Anwendung | - | - |
Compare AI. Test. Benchmarks. Mobile Chatbot-Apps, Sketch
Copyright © 2025 All Right Reserved.