A DeepSeek-R1 egy 671B paraméteres Mixture-of-Experts (MoE) modell, amely tokenenként 37B aktivált paraméterrel rendelkezik, és nagymértékű megerősítéses tanuláson keresztül készült, kiemelt figyelmet fordítva a gondolkodási képességekre. Két RL (reinforcement learning) szakaszt tartalmaz a javított gondolkodási minták felfedezésére és az emberi preferenciákhoz igazításra, valamint két SFT (supervised fine-tuning) szakaszt a gondolkodási és nem-gondolkodási képességek bevetésére. A modell teljesítménye hasonló az OpenAI-o1 modelléhez matematikai, kódolási és gondolkodási feladatokban.
„Grok 3“ az xAI legfejlettebb modellje, amelyet a Colossus szuperszámítógép-klaszteren képeztek ki, tízszer nagyobb számítási teljesítménnyel, mint a korábbi csúcstechnológiás modellek. Egy 1 millió tokenes kontextusablakkal és fejlett érvelési képességekkel rendelkezik, amelyeket nagyszabású megerősítéses tanulás javított, lehetővé téve a mély gondolkodási folyamatokat, amelyek másodpercekig vagy percekig is eltarthatnak összetett problémák megoldásához. A modell kiemelkedő teljesítményt nyújt akadémiai teszteken és valós felhasználói értékeléseken, 1402-es Elo pontszámot érve el a Chatbot Arénában. A Grok 3 Mini verzióval együtt jelent meg, amely egy költséghatékony változat, optimalizálva az egyszerűsített érveléshez.
DeepSeek-R1 | Grok 3 Beta | |
---|---|---|
Szolgáltató | ||
Weboldal | ||
Kiadási Dátum | Jan 21, 2025 3 hónapok ago | Jan 19, 2025 3 hónapok ago |
Modalitások | szöveg | szöveg képek videó |
API Szolgáltatók | DeepSeek, HuggingFace | xAI |
Tudás Befejezési Dátuma | Ismeretlen | 2025-01 |
Nyílt Forráskódú | Igen | Nem |
Bemeneti Árazás | $0.55 millió tokenenként | Nem elérhető |
Kimeneti Árazás | $2.19 millió tokenenként | Nem elérhető |
MMLU | 90.8% Pass@1 Forrás | Nem elérhető |
MMLU Pro | 84% EM Forrás | 79.9% Base model Forrás |
MMMU | - | 78% With Think mode Forrás |
HellaSwag | - | Nem elérhető |
HumanEval | - | Nem elérhető |
MATH | - | Nem elérhető |
GPQA | 71.5% Pass@1 Forrás | 84.6% With Think mode, Diamond Forrás |
IFEval | 83.3% Prompt Strict Forrás | Nem elérhető |
Mobilalkalmazás |
Compare AI. Test. Benchmarks. Mobil Chatbot Alkalmazások, Sketch
Copyright © 2025 All Right Reserved.