Claude 3.7 Sonnet - Extended Thinking AI Technische Specificaties en Review

Claude 3.7 Sonnet - Extended Thinking

Reacties: 0

Claude 3.7 Sonnet is het meest geavanceerde AI-model van Anthropic tot nu toe en het eerste hybride redeneersysteem op de markt. Het biedt zowel standaard als uitgebreide denkmodi, waarbij de laatste transparante, stapsgewijze redenering biedt. Het model toont aanzienlijke verbeteringen in codering en front-end webontwikkeling, met state-of-the-art resultaten op SWE-bench Verified en TAU-bench. Beschikbaar via Claude.ai, de Anthropic API, Amazon Bedrock en Google Cloud's Vertex AI, zet het een nieuwe standaard voor intelligente AI-gestuurde probleemoplossing.

4424

831

Positie in de algemene ranglijst vanaf
Juli 2026

Gebruikersbeoordeling
https://compare-ai.foundtt.com

4.1

Modeloverzicht

Website AI Model Webpagina	Open
Aanbieder De entiteit die dit model aanbiedt.	Anthropic
Chat Voer een bericht in om te beginnen met chatten	-
Releasedatum Wanneer het model voor het eerst is vrijgegeven.	1 jaar ago Feb 24, 2025
Modaliteiten Soorten gegevens die dit model kan verwerken	tekst ? afbeeldingen ?
API-Aanbieders De aanbieders die dit model leveren. (Dit is geen uitputtende lijst.)	Claude.ai, Anthropic API, Amazon Bedrock, Google Cloud Vertex AI
Kennisafsluitdatum Wanneer de kennis van het model voor het laatst is bijgewerkt.	-
Open Source Of de code van het model beschikbaar is voor publiek gebruik.	Nee
Prijzen Invoer Kosten voor het verwerken van tokens in uw prompts	$3.00 per miljoen tokens
Prijzen Uitvoer Kosten voor tokens gegenereerd door het model	$15.00 per miljoen tokens
MMLU Massive Multitask Language Understanding - Test kennis over 57 onderwerpen, waaronder wiskunde, geschiedenis, recht en meer	Niet beschikbaar
MMLU-Pro Een robuustere MMLU-benchmark met moeilijkere, op redenering gerichte vragen, een grotere keuzeset en verminderde gevoeligheid voor prompts	Niet beschikbaar
MMMU Massive Multitask Multimodal Understanding - Test begrip van tekst, afbeeldingen, audio en video	75% Bron
HellaSwag Een uitdagende benchmark voor zinsvoltooiing	Niet beschikbaar
HumanEval Evalueert codegeneratie en probleemoplossende vaardigheden	Niet beschikbaar
MATH Test wiskundige probleemoplossende vaardigheden op verschillende moeilijkheidsniveaus	96.2% Bron
GPQA Test PhD-niveau kennis in scheikunde, biologie en natuurkunde door meerkeuzevragen die diepgaande domeinkennis vereisen	84.8% Diamond Bron
IFEval Test het vermogen van het model om expliciete opmaakinstructies nauwkeurig te volgen, geschikte uitvoer te genereren en consistente instructienaleving te behouden bij verschillende taken	93.2% Bron
SimpleQA Evaluatie van de nauwkeurigheid van eenvoudige vragen	-
AIME 2024	-
AIME 2025	-
Aider Polyglot Meertalige programmeerbenchmark.	-
LiveCodeBench v5 Benchmark voor realtime programmeren	-
Global MMLU (Lite) Een vereenvoudigde versie van de benchmark om de universaliteit van modellen op wereldwijd niveau te beoordelen.	-
MathVista Evalueert de wiskundige redeneervermogens van AI-modellen binnen visuele contexten	-
Mobiele applicatie	Google Play Apple Apps

Claude 3.7 Sonnet - Extended Thinking Specificaties, Review en Vergelijking

Claude 3.7 Sonnet - Extended Thinking

Modeloverzicht

Voeg een reactie toe

Vergelijk LLMs