




Weboldal AI Modell Weboldal | |
Szolgáltató A modellt biztosító entitás. | |
Csevegés Írjon be egy üzenetet a csevegés megkezdéséhez | |
Kiadási Dátum Mikor jelent meg a modell először. | 1 év ago Ápr 14, 2025 |
Modalitások A modell által feldolgozható adattípusok | szöveg képek |
API Szolgáltatók A modellt kínáló szolgáltatók. (Ez nem egy teljes lista.) | OpenAI API |
Tudás Befejezési Dátuma Utoljára mikor frissült a modell tudása. | - |
Nyílt Forráskódú A modell kódja nyilvánosan használható-e. | Nem |
Bemeneti Árazás A promptokban feldolgozott tokenek költsége | $0.10 millió tokenenként |
Kimeneti Árazás A modell által generált tokenek költsége | $0.40 millió tokenenként |
MMLU Massive Multitask Language Understanding – 57 tantárgyban teszteli a tudást, beleértve a matematikát, történelmet, jogot és egyebeket | 80.1% Forrás |
MMLU-Pro Egy robusztusabb MMLU benchmark nehezebb, gondolkodásra összpontosító kérdésekkel, nagyobb választási lehetőségekkel és csökkentett prompt érzékenységgel | - |
MMMU Massive Multitask Multimodal Understanding – Teszteli a megértést szöveg, kép, hang és videó terén | 55.4% Forrás |
HellaSwag Egy kihívást jelentő mondatkiegészítési benchmark | - |
HumanEval Értékeli a kódgenerálás és problémamegoldó képességeket | - |
MATH Különböző nehézségi szinteken teszteli a matematikai problémamegoldó képességeket | - |
GPQA Doktori szintű tudást tesztel kémiában, biológiában és fizikában, több választós kérdéseken keresztül, amelyek mély szakmai tudást igényelnek | 50.3% Diamond Forrás |
IFEval Teszteli a modell képességét, hogy pontosan kövesse az explicit formázási utasításokat, megfelelő kimeneteket generáljon, és következetesen betartsa az utasításokat különböző feladatok során | 74.5% Forrás |
SimpleQA Egyszerű kérdések pontosságának értékelése | - |
AIME 2024 | 29.4% Forrás |
AIME 2025 | - |
Aider Polyglot Többnyelvű programozási benchmark. | - |
LiveCodeBench v5 Valós idejű programozási benchmark | - |
Global MMLU (Lite) A benchmark egyszerűsített verziója a modellek globális szintű univerzalitásának értékelésére. | 66.9% Forrás |
MathVista Értékeli az AI modellek matematikai következtetési képességeit vizuális környezetben | 56.2% Image Reasoning Forrás |
Mobilalkalmazás |
Compare AI. Test. Benchmarks. Mobil Chatbot Alkalmazások, Sketch
Copyright © 2026 All Right Reserved.