Grok 3 Beta

„Grok 3“ yra pažangiausias xAI modelis, apmokytas Colossus superklasteryje, kurio skaičiavimo galia yra dešimt kartų didesnė nei ankstesnių pažangiausių modelių. Jis turi 1 milijono žetonų kontekstinį langą ir pažangius samprotavimo gebėjimus, patobulintus per didelio masto stiprinamąjį mokymąsi, leidžiantį atlikti gilias mąstymo operacijas nuo kelių sekundžių iki kelių minučių, sprendžiant sudėtingas problemas. Modelis demonstruoja aukščiausio lygio našumą akademiniuose testuose ir realių vartotojų vertinimuose, pasiekdamas 1402 Elo balą Chatbot Arenoje. Kartu buvo išleista ir „Grok 3 Mini“ – ekonomiška versija, optimizuota supaprastintam samprotavimui.

DeepSeek-R1

DeepSeek-R1 yra 671B parametrų Mišrios ekspertų (MoE) modelis su 37B aktyvuotais parametrais per žodį, apmokytas didelio masto sustiprinto mokymosi, sutelkiant dėmesį į mąstymo gebėjimus. Jis apima dvi sustiprinto mokymosi stadijas, skirtas atrasti patobulintas mąstymo schemas ir suderinti su žmogaus pageidavimais, taip pat dvi SFT stadijas, skirtas pritaikyti mąstymo ir nemąstymo gebėjimus. Modelis pasiekia našumą, panašų į OpenAI-o1, matematikos, kodo ir mąstymo užduotyse.

Grok 3 BetaDeepSeek-R1
Internetinė svetainė ?
Tiekėjas ?
Pokalbiai ?
Išleidimo data ?
Modalumai ?
tekstas ?
vaizdai ?
vaizdo ?
tekstas ?
API tiekėjai ?
xAI
DeepSeek, HuggingFace
Žinių nutraukimo data ?
2025-01
Nežinoma
Atvirojo kodo ?
Ne
Taip
Įvesties kaina ?
Nėra prieinama
$0.55 už milijoną žodžių
Išvesties kaina ?
Nėra prieinama
$2.19 už milijoną žodžių
MMLU ?
Nėra prieinama
90.8%
Pass@1
Šaltinis
MMLU-Pro ?
79.9%
Base model
Šaltinis
84%
EM
Šaltinis
MMMU ?
78%
With Think mode
Šaltinis
-
HellaSwag ?
Nėra prieinama
-
HumanEval ?
Nėra prieinama
-
MATH ?
Nėra prieinama
-
GPQA ?
84.6%
With Think mode, Diamond
Šaltinis
71.5%
Pass@1
Šaltinis
IFEval ?
Nėra prieinama
83.3%
Prompt Strict
Šaltinis
SimpleQA ?
-
-
AIME 2024
-
-
AIME 2025
-
-
Aider Polyglot ?
-
-
LiveCodeBench v5 ?
-
-
Global MMLU (Lite) ?
-
-
MathVista ?
-
-
Mobilioji programa

Palyginti LLM

Pridėti komentarą


10%
Mūsų svetainė naudoja slapukus.

Privatumo ir slapukų politika: Ši svetainė naudoja slapukus. Tęsdami naudojimąsi svetaine, jūs sutinkate su jų naudojimu.