„Grok 3“ yra pažangiausias xAI modelis, apmokytas Colossus superklasteryje, kurio skaičiavimo galia yra dešimt kartų didesnė nei ankstesnių pažangiausių modelių. Jis turi 1 milijono žetonų kontekstinį langą ir pažangius samprotavimo gebėjimus, patobulintus per didelio masto stiprinamąjį mokymąsi, leidžiantį atlikti gilias mąstymo operacijas nuo kelių sekundžių iki kelių minučių, sprendžiant sudėtingas problemas. Modelis demonstruoja aukščiausio lygio našumą akademiniuose testuose ir realių vartotojų vertinimuose, pasiekdamas 1402 Elo balą Chatbot Arenoje. Kartu buvo išleista ir „Grok 3 Mini“ – ekonomiška versija, optimizuota supaprastintam samprotavimui.
Claude 3.7 Sonnet yra „Anthropic“ kol kas pažangiausias AI modelis ir pirmoji hibridinė samprotavimo sistema rinkoje. Jis siūlo standartinį ir išplėstinį mąstymo režimus, pastarasis teikia skaidrų, žingsnis po žingsnio samprotavimą. Modelis rodo didelį patobulėjimą kodinime ir front-end web programuote, pasiekdamas modernius rezultatus SWE-bench Verified ir TAU-bench testuose. Prieinamas per „Claude.ai“, „Anthropic API“, „Amazon Bedrock“ ir „Google Cloud Vertex AI“, jis nustato naują standartą intelektualiai AI varomai problemų sprendimui.
Grok 3 Beta | Claude 3.7 Sonnet - Extended Thinking | |
---|---|---|
Tiekėjas | ||
Internetinė svetainė | ||
Išleidimo data | Jan 19, 2025 3 mėnesiai ago | Feb 24, 2025 1 mėnuo ago |
Modalumai | tekstas vaizdai vaizdo | tekstas vaizdai |
API tiekėjai | xAI | Claude.ai, Anthropic API, Amazon Bedrock, Google Cloud Vertex AI |
Žinių nutraukimo data | 2025-01 | - |
Atvirojo kodo | Ne | Ne |
Įvesties kaina | Nėra prieinama | $3.00 už milijoną žodžių |
Išvesties kaina | Nėra prieinama | $15.00 už milijoną žodžių |
MMLU | Nėra prieinama | Nėra prieinama |
MMLU Pro | 79.9% Base model Šaltinis | Nėra prieinama |
MMMU | 78% With Think mode Šaltinis | 75% Šaltinis |
HellaSwag | Nėra prieinama | Nėra prieinama |
HumanEval | Nėra prieinama | Nėra prieinama |
MATH | Nėra prieinama | 96.2% Šaltinis |
GPQA | 84.6% With Think mode, Diamond Šaltinis | 84.8% Diamond Šaltinis |
IFEval | Nėra prieinama | 93.2% Šaltinis |
Mobilioji programa |
Compare AI. Test. Benchmarks. Mobiliosios pokalbių robotų programos, Sketch
Copyright © 2025 All Right Reserved.