In den fünf Monaten seit der Veröffentlichung von Qwen2-VL haben Entwickler darauf basierende neue Modelle erstellt und wertvolles Feedback gegeben. Jetzt führt Qwen2.5-VL verbesserte Fähigkeiten ein, darunter präzise Analyse von Bildern, Texten und Diagrammen sowie Objektlokalisierung mit strukturierten JSON-Ausgaben. Es versteht lange Videos, erkennt Schlüsselereignisse und fungiert als Agent, der mit Tools auf Computern und Telefonen interagiert. Die Architektur des Modells umfasst dynamische Videoverarbeitung und einen optimierten ViT-Encoder für verbesserte Geschwindigkeit und Genauigkeit.
Qwen 3 | Qwen2.5-VL-32B | |
---|---|---|
Webseite
| ||
Anbieter
| ||
Chat
| ||
Veröffentlichungsdatum
| ||
Modalitäten
| - | Text Bilder Video |
API-Anbieter
| - | - |
Datum des Wissensstandes
| - | Unbekannt |
Open Source
| Ja (Quelle) | Ja (Quelle) |
Preisgestaltung Eingabe
| - | $0 |
Preisgestaltung Ausgabe
| - | $0 |
MMLU
| - | 78.4% Quelle |
MMLU-Pro
| - | 49.5% |
MMMU
| - | 70% |
HellaSwag
| - | Nicht verfügbar |
HumanEval
| - | Nicht verfügbar |
MATH
| - | 82.2% |
GPQA
| - | 46.0% Diamond |
IFEval
| - | Nicht verfügbar |
SimpleQA
| - | - |
AIME 2024 | Quelle | - |
AIME 2025 | Quelle | - |
Aider Polyglot
| - | - |
LiveCodeBench v5
| - | - |
Global MMLU (Lite)
| - | - |
MathVista
| - | - |
Mobile Anwendung | - | - |
Compare AI. Test. Benchmarks. Mobile Chatbot-Apps, Sketch
Copyright © 2025 All Right Reserved.