DeepSeek-R1

Коментарі: 1
DeepSeek-R1 #0
DeepSeek-R1 #1
DeepSeek-R1 #2

DeepSeek-R1 — це модель з 671B параметрів, побудована на архітектурі Mixture-of-Experts (MoE),з 37B активованих параметрів на токен. Вона навчалась за допомогою масштабного навчання з підкріпленням із акцентом на розвиток навичок міркування. Модель включає два етапи RL для виявлення покращених шаблонів міркування та відповідності людським уподобанням, а також два етапи SFT для закладання основ міркувальних та неміркувальних здібностей. Модель демонструє продуктивність, порівнянну з OpenAI-o1, у завданнях з математики, програмування та міркування.

1224
21

Позиція в загальному рейтингу станом на
Червень 2026
5
Рейтинг користувачів
https://compare-ai.foundtt.com
4.2

Огляд моделі

Веб-сайт
Веб-сторінка моделі ШІ
Постачальник
Організація, яка надає цю модель.
Чат
Введіть повідомлення, щоб почати спілкування
-
Дата випуску
Дата першого випуску моделі.
1 рік ago
Січ 21, 2025
Модальності
Типи даних, які може обробляти ця модель
текст ?
Постачальники API
Постачальники, які пропонують цю модель. (Це не вичерпний список.)
DeepSeek, HuggingFace
Дата оновлення знань
Дата останнього оновлення знань моделі.
Невідомо
Відкритий код
Чи доступний код моделі для публічного використання.
Так
Вартість введення
Вартість обробки токенів у ваших запитах
$0.55 за мільйон токенів
Вартість виведення
Вартість токенів, згенерованих моделлю
$2.19 за мільйон токенів
MMLU
Massive Multitask Language Understanding - Тестує знання з 57 предметів, включаючи математику, історію, право та інше
90.8%
Pass@1
Джерело
MMLU-Pro
Більш надійний тест MMLU із складнішими питаннями, орієнтованими на міркування, більшим набором варіантів і зменшеною чутливістю до запитів
84%
EM
Джерело
MMMU
Massive Multitask Multimodal Understanding - Тестує розуміння тексту, зображень, аудіо та відео
-
HellaSwag
Складний тест на завершення речень
-
HumanEval
Оцінює можливості генерації коду та вирішення задач
-
MATH
Тестує математичні навички вирішення задач різного рівня складності
-
GPQA
Тестує знання на рівні PhD з хімії, біології та фізики через багатозначні питання, що вимагають глибоких знань у галузі
71.5%
Pass@1
Джерело
IFEval
Тестує здатність моделі точно дотримуватися явних інструкцій щодо форматування, генерувати відповідні результати та підтримувати послідовне дотримання інструкцій у різних завданнях
83.3%
Prompt Strict
Джерело
SimpleQA
Оцінка точності простих запитань
-
AIME 2024
-
AIME 2025
-
Aider Polyglot
Багатомовний програмний бенчмарк.
-
LiveCodeBench v5
Бенчмарк для програмування в реальному часі
-
Global MMLU (Lite)
Спрощена версія бенчмарку для оцінки універсальності моделей на глобальному рівні.
-
MathVista
Оцінює математичні здібності ШІ моделей у візуальних контекстах
-
Мобільний додаток

MathArena ?

Середній бал82%
AIME 2025
Тест, заснований на завданнях з конкурсу з математики (American Invitational Mathematics Examination),призначений для перевірки математичних навичок моделей.
89%
HMMT February 2025
Тест, заснований на завданнях з Harvard-MIT Mathematics Tournament, лютий 2025 року, призначений для перевірки математичних навичок моделей.
77%
BRUMO 202592%
SMT 2025
Тест, заснований на завданнях зі Stanford Math Tournament, 2025 року, призначений для перевірки математичних навичок моделей.
83%
CMIMC 2025
Тест, заснований на завданнях з Canadian Mathematical Olympiad, 2025 року, призначений для перевірки математичних навичок моделей.
69%

Коментарі (1)

  1. Jacquie

    27 Січень 2026

    Digiturk paketler icinden size en uygun uyeligi kolayca secebilirsiniz. https://digiturkpaketler.com/kampanyalar

Додати коментар

Порівняти LLM


10%
Наш сайт використовує cookies

Цей сайт використовує файли cookie. Продовжуючи користуватися сайтом, ви погоджуєтеся з їх використанням.