DeepSeek-R1

DeepSeek-R1 — це модель з 671B параметрів, побудована на архітектурі Mixture-of-Experts (MoE),з 37B активованих параметрів на токен. Вона навчалась за допомогою масштабного навчання з підкріпленням із акцентом на розвиток навичок міркування. Модель включає два етапи RL для виявлення покращених шаблонів міркування та відповідності людським уподобанням, а також два етапи SFT для закладання основ міркувальних та неміркувальних здібностей. Модель демонструє продуктивність, порівнянну з OpenAI-o1, у завданнях з математики, програмування та міркування.

Nova Pro

Amazon Nova Pro — це передова мультимодальна модель, призначена для обробки текстових, графічних та відео-вхідних даних із розширеними можливостями обробки. Завдяки контекстному вікну в 300 000 токенів вона чудово справляється з аналізом документів, візуальною відповіддю на запитання та складними робочими процесами, керованими агентами. Як частина базових моделей Amazon Nova, вона підтримує тонке налаштування та дистиляцію, що дозволяє глибоко адаптувати її для різних додатків.

DeepSeek-R1Nova Pro
Постачальник
Веб-сайт
Дата випуску
Jan 21, 2025
3 months ago
Dec 02, 2024
4 months ago
Модальності
текст ?
текст ?
зображення ?
відео ?
Постачальники API
DeepSeek, HuggingFace
Amazon Bedrock
Дата оновлення знань
Невідомо
Навмисно не розголошується
Відкритий код
Так
Ні
Вартість введення
$0.55 за мільйон токенів
$0.80 за мільйон токенів
Вартість виведення
$2.19 за мільйон токенів
$3.20 за мільйон токенів
MMLU
90.8%
Pass@1
Джерело
85.9%
CoT
Джерело
MMLU Pro
84%
EM
Джерело
Недоступно
MMMU
-
Недоступно
HellaSwag
-
Недоступно
HumanEval
-
89%
pass@1
Джерело
MATH
-
76.6%
CoT
Джерело
GPQA
71.5%
Pass@1
Джерело
46.9%
Main
Джерело
IFEval
83.3%
Prompt Strict
Джерело
92.1%
Джерело
Мобільний додаток
-

Порівняти LLM

Додати коментар


10%
Наш сайт використовує cookies

Цей сайт використовує файли cookie. Продовжуючи користуватися сайтом, ви погоджуєтеся з їх використанням.