Grok 3 Beta

Komentáre: 1
Grok 3 Beta #0
Grok 3 Beta #1
Grok 3 Beta #2
Grok 3 Beta #3

„Grok 3“ je najpokročilejší model spoločnosti xAI, trénovaný na superklastri Colossus s desaťnásobnou výpočtovou silou oproti predchádzajúcim špičkovým modelom. Má kontextové okno s kapacitou 1 milión tokenov a pokročilé schopnosti uvažovania, vylepšené rozsiahlym posilňovaným učením, ktoré umožňuje hlboké myšlienkové procesy trvajúce od sekúnd až po minúty pri riešení zložitých problémov. Model dosahuje špičkové výkony v akademických testoch a reálnych používateľských hodnoteniach, pričom získal Elo skóre 1402 v Chatbot Arena. Bol vydaný spolu s Grok 3 Mini, nákladovo efektívnou verziou optimalizovanou pre zjednodušené uvažovanie.

3792
261

Pozícia v celkovom rebríčku k dátumuJún 2026
13
Hodnotenie používateľovhttps://compare-ai.foundtt.com
4.1

Prehľad modelu

Webová stránka
Webová stránka AI modelu
Poskytovateľ
Subjekt, ktorý poskytuje tento model.
Chat
Zadajte správu a začnite chatovať
Dátum vydania
Kedy bol model prvýkrát vydaný.
1 rok ago
Jan 19, 2025
Modality
Typy dát, ktoré tento model dokáže spracovať
text ?
obrázky ?
video ?
Poskytovatelia API
Poskytovatelia, ktorí ponúkajú tento model. (Toto nie je vyčerpávajúci zoznam.)
xAI
Dátum zastarania vedomostí
Kedy boli vedomosti modelu naposledy aktualizované.
2025-01
Open Source
Či je kód modelu dostupný na verejné použitie.
Nie
Cena za vstup
Cena za spracovanie tokenov vo vašich promptoch
Nie je k dispozícii
Cena za výstup
Cena za tokeny generované modelom
Nie je k dispozícii
MMLU
Massive Multitask Language Understanding – Testuje vedomosti v 57 predmetoch vrátane matematiky, histórie, práva a ďalších
Nie je k dispozícii
MMLU-Pro
Robustnejší benchmark MMLU s náročnejšími otázkami zameranými na uvažovanie, väčším výberom a zníženou citlivosťou na prompty
79.9%
Base model
Zdroj
MMMU
Massive Multitask Multimodal Understanding – Testuje porozumenie textu, obrázkom, audiu a videu
78%
With Think mode
Zdroj
HellaSwag
Náročný benchmark na dokončovanie viet
Nie je k dispozícii
HumanEval
Hodnotí schopnosti generovania kódu a riešenia problémov
Nie je k dispozícii
MATH
Testuje schopnosti riešenia matematických problémov na rôznych úrovniach náročnosti
Nie je k dispozícii
GPQA
Testuje vedomosti na úrovni PhD v chémii, biológii a fyzike prostredníctvom otázok s výberom odpovedí, ktoré vyžadujú hlboké odborné znalosti
84.6%
With Think mode, Diamond
Zdroj
IFEval
Testuje schopnosť modelu presne dodržiavať explicitné pokyny na formátovanie, generovať vhodné výstupy a udržiavať konzistentné dodržiavanie pokynov pri rôznych úlohách
Nie je k dispozícii
SimpleQA
Hodnotenie presnosti jednoduchých otázok
-
AIME 2024
-
AIME 2025
-
Aider Polyglot
Viacjazyčný programovací benchmark.
-
LiveCodeBench v5
Benchmark pre programovanie v reálnom čase
-
Global MMLU (Lite)
Zjednodušená verzia benchmarku na hodnotenie univerzálnosti modelov na globálnej úrovni.
-
MathVista
Hodnotí schopnosti matematického uvažovania modelov AI vo vizuálnych kontextoch
-
Mobilná aplikácia

Komentáre (1)

  1. Pierre

    09 Apríl 2026

    Ziet er goed uit

Pridať komentár

Porovnaj LLM


10%
Naša stránka používa súbory cookies.

Zásady ochrany osobných údajov a súborov cookies: Táto stránka používa súbory cookies. Pokračovaním v používaní stránky súhlasíte s ich použitím.