Claude 3.7 Sonnet - Extended Thinking

Коментарі: 0
Claude 3.7 Sonnet - Extended Thinking #0
Claude 3.7 Sonnet - Extended Thinking #1
Claude 3.7 Sonnet - Extended Thinking #2
Claude 3.7 Sonnet - Extended Thinking #3

Claude 3.7 Sonnet — це найдосконаліша модель ШІ від Anthropic на сьогодні та перша гібридна система для міркувань на ринку. Він пропонує як стандартний, так і розширений режими мислення, причому останній забезпечує прозоре, покрокове міркування. Модель демонструє значні покращення в кодуванні та фронтенд-розробці, досягаючи передових результатів у тестах SWE-bench Verified і TAU-bench. Доступний через Claude.ai, API Anthropic, Amazon Bedrock і Google Cloud Vertex AI, він задає новий стандарт для інтелектуального вирішення проблем, керованого ШІ.

4424
831

Позиція в загальному рейтингу станом на
Червень 2026
14
Рейтинг користувачів
https://compare-ai.foundtt.com
4.1

Огляд моделі

Веб-сайт
Веб-сторінка моделі ШІ
Постачальник
Організація, яка надає цю модель.
Чат
Введіть повідомлення, щоб почати спілкування
-
Дата випуску
Дата першого випуску моделі.
1 рік ago
Лют 24, 2025
Модальності
Типи даних, які може обробляти ця модель
текст ?
зображення ?
Постачальники API
Постачальники, які пропонують цю модель. (Це не вичерпний список.)
Claude.ai, Anthropic API, Amazon Bedrock, Google Cloud Vertex AI
Дата оновлення знань
Дата останнього оновлення знань моделі.
-
Відкритий код
Чи доступний код моделі для публічного використання.
Ні
Вартість введення
Вартість обробки токенів у ваших запитах
$3.00 за мільйон токенів
Вартість виведення
Вартість токенів, згенерованих моделлю
$15.00 за мільйон токенів
MMLU
Massive Multitask Language Understanding - Тестує знання з 57 предметів, включаючи математику, історію, право та інше
Недоступно
MMLU-Pro
Більш надійний тест MMLU із складнішими питаннями, орієнтованими на міркування, більшим набором варіантів і зменшеною чутливістю до запитів
Недоступно
MMMU
Massive Multitask Multimodal Understanding - Тестує розуміння тексту, зображень, аудіо та відео
75%
Джерело
HellaSwag
Складний тест на завершення речень
Недоступно
HumanEval
Оцінює можливості генерації коду та вирішення задач
Недоступно
MATH
Тестує математичні навички вирішення задач різного рівня складності
96.2%
Джерело
GPQA
Тестує знання на рівні PhD з хімії, біології та фізики через багатозначні питання, що вимагають глибоких знань у галузі
84.8%
Diamond
Джерело
IFEval
Тестує здатність моделі точно дотримуватися явних інструкцій щодо форматування, генерувати відповідні результати та підтримувати послідовне дотримання інструкцій у різних завданнях
93.2%
Джерело
SimpleQA
Оцінка точності простих запитань
-
AIME 2024
-
AIME 2025
-
Aider Polyglot
Багатомовний програмний бенчмарк.
-
LiveCodeBench v5
Бенчмарк для програмування в реальному часі
-
Global MMLU (Lite)
Спрощена версія бенчмарку для оцінки універсальності моделей на глобальному рівні.
-
MathVista
Оцінює математичні здібності ШІ моделей у візуальних контекстах
-
Мобільний додаток

Додати коментар

Порівняти LLM


10%
Наш сайт використовує cookies

Цей сайт використовує файли cookie. Продовжуючи користуватися сайтом, ви погоджуєтеся з їх використанням.