Grok 3 Beta KI-Technische Spezifikationen und Bewertung

Grok 3 Beta

Kommentare: 1

„Grok 3“ ist das fortschrittlichste Modell von xAI, trainiert auf dem Colossus-Supercluster mit der zehnfachen Rechenleistung früherer Spitzenmodelle. Es verfügt über ein Kontextfenster von 1 Million Token und fortgeschrittene Denkfähigkeiten, die durch groß angelegtes Reinforcement Learning verbessert wurden, sodass tiefgehende Denkprozesse von Sekunden bis zu Minuten für die Lösung komplexer Probleme möglich sind. Das Modell erzielt Spitzenleistungen in akademischen Benchmarks und realen Nutzertests und erreichte eine Elo-Bewertung von 1402 in der Chatbot Arena. Es wurde zusammen mit Grok 3 Mini veröffentlicht, einer kosteneffizienten Variante, die für optimierte Schlussfolgerungen entwickelt wurde.

3792

261

Position im Gesamtranking zum Stand von
Juli 2026

Benutzerbewertung
https://compare-ai.foundtt.com

4.1

Modellübersicht

Webseite KI-Modell-Webseite	Open
Anbieter Die Entität, die dieses Modell bereitstellt.	xAI
Chat Geben Sie eine Nachricht ein, um zu chatten	Open
Veröffentlichungsdatum Wann das Modell erstmals veröffentlicht wurde.	1 Jahr ago Jan 19, 2025
Modalitäten Arten von Daten, die dieses Modell verarbeiten kann	Text ? Bilder ? Video ?
API-Anbieter Die Anbieter, die dieses Modell anbieten. (Diese Liste ist nicht vollständig.)	xAI
Datum des Wissensstandes Wann das Wissen des Modells zuletzt aktualisiert wurde.	2025-01
Open Source Ob der Code des Modells öffentlich verfügbar ist.	Nein
Preisgestaltung Eingabe Kosten für die Verarbeitung von Token in Ihren Eingaben	Nicht verfügbar
Preisgestaltung Ausgabe Kosten für vom Modell generierte Token	Nicht verfügbar
MMLU Massive Multitask Language Understanding – Testet Wissen in 57 Fächern, darunter Mathematik, Geschichte, Recht und mehr	Nicht verfügbar
MMLU-Pro Ein robusterer MMLU-Benchmark mit schwierigeren, auf logisches Denken fokussierten Fragen, einer größeren Auswahl an Antworten und geringerer Sensitivität für Eingabevariationen	79.9% Base model Quelle
MMMU Massive Multitask Multimodal Understanding – Testet das Verständnis über Text, Bilder, Audio und Video hinweg	78% With Think mode Quelle
HellaSwag Ein anspruchsvoller Benchmark für Satzvervollständigung	Nicht verfügbar
HumanEval Bewertet Codegenerierung und Problemlösungsfähigkeiten	Nicht verfügbar
MATH Testet mathematische Problemlösungsfähigkeiten auf verschiedenen Schwierigkeitsstufen	Nicht verfügbar
GPQA Testet Wissen auf PhD-Niveau in Chemie, Biologie und Physik durch Multiple-Choice-Fragen, die tiefgehendes Fachwissen erfordern	84.6% With Think mode, Diamond Quelle
IFEval Testet die Fähigkeit des Modells, Formatierungsvorgaben genau zu befolgen, angemessene Ausgaben zu generieren und konsistente Instruktionsbefolgung über verschiedene Aufgaben hinweg zu gewährleisten	Nicht verfügbar
SimpleQA Bewertung der Genauigkeit einfacher Fragen	-
AIME 2024	-
AIME 2025	-
Aider Polyglot Mehrsprachige Programmier-Benchmark.	-
LiveCodeBench v5 Benchmark für Echtzeit-Programmierung	-
Global MMLU (Lite) Eine vereinfachte Version des Benchmarks zur Beurteilung der Universalität von Modellen auf globaler Ebene.	-
MathVista Bewertet die mathematischen Denkfähigkeiten von KI-Modellen in visuellen Kontexten	-
Mobile Anwendung	Google Play Apple Apps

Kommentare (1)

Pierre
09 April 2026
Ziet er goed uit

Grok 3 Beta Spezifikationen, Bewertung und Vergleich

Grok 3 Beta

Modellübersicht

Kommentare (1)

Pierre

Kommentar hinzufügen

LLMs vergleichen