


Webseite KI-Modell-Webseite | |
Anbieter Die Entität, die dieses Modell bereitstellt. | |
Chat Geben Sie eine Nachricht ein, um zu chatten | |
Veröffentlichungsdatum Wann das Modell erstmals veröffentlicht wurde. | 1 Jahr ago Mai 22, 2025 |
Modalitäten Arten von Daten, die dieses Modell verarbeiten kann | Text Bilder |
API-Anbieter Die Anbieter, die dieses Modell anbieten. (Diese Liste ist nicht vollständig.) | Anthropic API, Amazon Bedrock, Google Cloud's Vertex AI |
Datum des Wissensstandes Wann das Wissen des Modells zuletzt aktualisiert wurde. | Unbekannt |
Open Source Ob der Code des Modells öffentlich verfügbar ist. | Nein |
Preisgestaltung Eingabe Kosten für die Verarbeitung von Token in Ihren Eingaben | $3 pro Million Token |
Preisgestaltung Ausgabe Kosten für vom Modell generierte Token | $15 pro Million Token |
MMLU Massive Multitask Language Understanding – Testet Wissen in 57 Fächern, darunter Mathematik, Geschichte, Recht und mehr | 86.5% Quelle |
MMLU-Pro Ein robusterer MMLU-Benchmark mit schwierigeren, auf logisches Denken fokussierten Fragen, einer größeren Auswahl an Antworten und geringerer Sensitivität für Eingabevariationen | - |
MMMU Massive Multitask Multimodal Understanding – Testet das Verständnis über Text, Bilder, Audio und Video hinweg | 74.4% Quelle |
HellaSwag Ein anspruchsvoller Benchmark für Satzvervollständigung | - |
HumanEval Bewertet Codegenerierung und Problemlösungsfähigkeiten | - |
MATH Testet mathematische Problemlösungsfähigkeiten auf verschiedenen Schwierigkeitsstufen | - |
GPQA Testet Wissen auf PhD-Niveau in Chemie, Biologie und Physik durch Multiple-Choice-Fragen, die tiefgehendes Fachwissen erfordern | 75.4% Diamond Quelle |
IFEval Testet die Fähigkeit des Modells, Formatierungsvorgaben genau zu befolgen, angemessene Ausgaben zu generieren und konsistente Instruktionsbefolgung über verschiedene Aufgaben hinweg zu gewährleisten | - |
SimpleQA Bewertung der Genauigkeit einfacher Fragen | - |
AIME 2024 | - |
AIME 2025 | 75.5% Quelle |
Aider Polyglot Mehrsprachige Programmier-Benchmark. | - |
LiveCodeBench v5 Benchmark für Echtzeit-Programmierung | - |
Global MMLU (Lite) Eine vereinfachte Version des Benchmarks zur Beurteilung der Universalität von Modellen auf globaler Ebene. | - |
MathVista Bewertet die mathematischen Denkfähigkeiten von KI-Modellen in visuellen Kontexten | - |
Mobile Anwendung |
Compare AI. Test. Benchmarks. Mobile Chatbot-Apps, Sketch
Copyright © 2026 All Right Reserved.