GPT-4.1

Komentáre: 0
GPT-4.1 #0
GPT-4.1 #1
GPT-4.1 #2
GPT-4.1 #3

GPT-4.1, ktorý OpenAI spustil 14. apríla 2025, prináša kontextové okno s veľkosťou 1 milión tokenov a podporuje výstupy až 32 768 tokenov na požiadavku. Poskytuje vynikajúci výkon v kódovacích úlohách, dosahuje 54,6 % v benchmarku SWE-Bench Verified a vykazuje 10,5 % zlepšenie oproti GPT-4o v MultiChallenge pri sledovaní inštrukcií. Vedomostný limit modelu je stanovený na jún 2024. Cena je 2,00 $ za milión tokenov pre vstup a 8,00 $ za milión tokenov pre výstup, s 75 % zľavou pre ukladané vstupy, čo ho robí vysoko nákladovo efektívnym pre opakované dopytovania.

3374
887

Pozícia v celkovom rebríčku k dátumuJún 2026
17
Hodnotenie používateľovhttps://compare-ai.foundtt.com
4.1

Prehľad modelu

Webová stránka
Webová stránka AI modelu
Poskytovateľ
Subjekt, ktorý poskytuje tento model.
Chat
Zadajte správu a začnite chatovať
Dátum vydania
Kedy bol model prvýkrát vydaný.
1 rok ago
Apr 14, 2025
Modality
Typy dát, ktoré tento model dokáže spracovať
text ?
obrázky ?
Poskytovatelia API
Poskytovatelia, ktorí ponúkajú tento model. (Toto nie je vyčerpávajúci zoznam.)
OpenAI API
Dátum zastarania vedomostí
Kedy boli vedomosti modelu naposledy aktualizované.
-
Open Source
Či je kód modelu dostupný na verejné použitie.
Nie
Cena za vstup
Cena za spracovanie tokenov vo vašich promptoch
$2.00 za milión tokenov
Cena za výstup
Cena za tokeny generované modelom
$8.00 za milión tokenov
MMLU
Massive Multitask Language Understanding – Testuje vedomosti v 57 predmetoch vrátane matematiky, histórie, práva a ďalších
90.2%
pass@1
Zdroj
MMLU-Pro
Robustnejší benchmark MMLU s náročnejšími otázkami zameranými na uvažovanie, väčším výberom a zníženou citlivosťou na prompty
-
MMMU
Massive Multitask Multimodal Understanding – Testuje porozumenie textu, obrázkom, audiu a videu
74.8%
Zdroj
HellaSwag
Náročný benchmark na dokončovanie viet
-
HumanEval
Hodnotí schopnosti generovania kódu a riešenia problémov
-
MATH
Testuje schopnosti riešenia matematických problémov na rôznych úrovniach náročnosti
-
GPQA
Testuje vedomosti na úrovni PhD v chémii, biológii a fyzike prostredníctvom otázok s výberom odpovedí, ktoré vyžadujú hlboké odborné znalosti
66.3%
Diamond
Zdroj
IFEval
Testuje schopnosť modelu presne dodržiavať explicitné pokyny na formátovanie, generovať vhodné výstupy a udržiavať konzistentné dodržiavanie pokynov pri rôznych úlohách
-
SimpleQA
Hodnotenie presnosti jednoduchých otázok
-
AIME 2024
48.1%
Zdroj
AIME 2025
-
Aider Polyglot
Viacjazyčný programovací benchmark.
-
LiveCodeBench v5
Benchmark pre programovanie v reálnom čase
-
Global MMLU (Lite)
Zjednodušená verzia benchmarku na hodnotenie univerzálnosti modelov na globálnej úrovni.
87.3%
pass@1
Zdroj
MathVista
Hodnotí schopnosti matematického uvažovania modelov AI vo vizuálnych kontextoch
-
Mobilná aplikácia

Pridať komentár

Porovnaj LLM


10%
Naša stránka používa súbory cookies.

Zásady ochrany osobných údajov a súborov cookies: Táto stránka používa súbory cookies. Pokračovaním v používaní stránky súhlasíte s ich použitím.