GPT-4.1 AI Műszaki Specifikációk és Értékelés

GPT-4.1

Hozzászólások: 0

A GPT-4.1-et az OpenAI 2025. április 14-én dobta piacra, amely 1 millió tokenes kontextusablakot vezet be, és kérésselként legfeljebb 32 768 token kimenetet támogat. Kiváló teljesítményt nyújt kódolási feladatokban, 54,6%-ot ér el a SWE-Bench Verified benchmarkon, és 10,5%-os javulást mutat a GPT-4o-hoz képest a MultiChallenge-en az utasítások követésében. A modell tudásának határidője 2024. júniusra van állítva. A díjszabás 2,00 $ milliónyi token bemenetre és 8,00 $ milliónyi token kimenetre vonatkozik, a gyorsítótárazott bemenetekre 75%-os kedvezményt alkalmazva, ami nagyon költséghatékonyvá teszi az ismétlődő lekérdezések esetén.

3374

887

Helyezés az összesített rangsorban dátummal Július 2026

Felhasználói értékelés https://compare-ai.foundtt.com

4.1

Modell Áttekintés

Weboldal AI Modell Weboldal	Open
Szolgáltató A modellt biztosító entitás.	OpenAI
Csevegés Írjon be egy üzenetet a csevegés megkezdéséhez	Open
Kiadási Dátum Mikor jelent meg a modell először.	1 év ago Ápr 14, 2025
Modalitások A modell által feldolgozható adattípusok	szöveg ? képek ?
API Szolgáltatók A modellt kínáló szolgáltatók. (Ez nem egy teljes lista.)	OpenAI API
Tudás Befejezési Dátuma Utoljára mikor frissült a modell tudása.	-
Nyílt Forráskódú A modell kódja nyilvánosan használható-e.	Nem
Bemeneti Árazás A promptokban feldolgozott tokenek költsége	$2.00 millió tokenenként
Kimeneti Árazás A modell által generált tokenek költsége	$8.00 millió tokenenként
MMLU Massive Multitask Language Understanding – 57 tantárgyban teszteli a tudást, beleértve a matematikát, történelmet, jogot és egyebeket	90.2% pass@1 Forrás
MMLU-Pro Egy robusztusabb MMLU benchmark nehezebb, gondolkodásra összpontosító kérdésekkel, nagyobb választási lehetőségekkel és csökkentett prompt érzékenységgel	-
MMMU Massive Multitask Multimodal Understanding – Teszteli a megértést szöveg, kép, hang és videó terén	74.8% Forrás
HellaSwag Egy kihívást jelentő mondatkiegészítési benchmark	-
HumanEval Értékeli a kódgenerálás és problémamegoldó képességeket	-
MATH Különböző nehézségi szinteken teszteli a matematikai problémamegoldó képességeket	-
GPQA Doktori szintű tudást tesztel kémiában, biológiában és fizikában, több választós kérdéseken keresztül, amelyek mély szakmai tudást igényelnek	66.3% Diamond Forrás
IFEval Teszteli a modell képességét, hogy pontosan kövesse az explicit formázási utasításokat, megfelelő kimeneteket generáljon, és következetesen betartsa az utasításokat különböző feladatok során	-
SimpleQA Egyszerű kérdések pontosságának értékelése	-
AIME 2024	48.1% Forrás
AIME 2025	-
Aider Polyglot Többnyelvű programozási benchmark.	-
LiveCodeBench v5 Valós idejű programozási benchmark	-
Global MMLU (Lite) A benchmark egyszerűsített verziója a modellek globális szintű univerzalitásának értékelésére.	87.3% pass@1 Forrás
MathVista Értékeli az AI modellek matematikai következtetési képességeit vizuális környezetben	-
Mobilalkalmazás	Google Play Apple Apps

GPT-4.1 Specifikációk, Értékelés és Összehasonlítás

GPT-4.1

Modell Áttekintés

Hozzászólás Hozzáadása

LLM-ek Összehasonlítása