GPT-OSS

Komentarze: 0
GPT-OSS #0
GPT-OSS #1
0
0

Pozycja w ogólnym rankingu na dzień
Czerwiec 2026
19
Ocena użytkowników
https://compare-ai.foundtt.com
4.1

Przegląd modelu

Strona internetowa
Strona internetowa modelu AI
Dostawca
Podmiot dostarczający ten model.
Czat
Wpisz wiadomość, aby rozpocząć czat
Data wydania
Kiedy model został po raz pierwszy wydany.
9 miesięcy ago
Sie 05, 2025
Modalności
Rodzaje danych, które ten model może przetwarzać
tekst ?
Dostawcy API
Dostawcy oferujący ten model. (To nie jest wyczerpująca lista.)
Self-hosted, Hugging Face, AWS, Azure, Databricks
Data ostatniej aktualizacji wiedzy
Kiedy wiedza modelu była ostatnio aktualizowana.
-
Open Source
Czy kod modelu jest dostępny do publicznego użytku.
Tak
Cena za wejście
Koszt przetwarzania tokenów w Twoich promptach
$0.15 za milion tokenów
Cena za wyjście
Koszt za tokeny wygenerowane przez model
$0.60 za milion tokenów
MMLU
Massive Multitask Language Understanding - Testuje wiedzę z 57 dziedzin, w tym matematyki, historii, prawa i innych
82.7%
Źródło
MMLU-Pro
Bardziej zaawansowane benchmarki MMLU z trudniejszymi pytaniami skupionymi na rozumowaniu, większym zestawem wyborów i zmniejszoną wrażliwością na prompty
-
MMMU
Massive Multitask Multimodal Understanding - Testuje rozumienie tekstu, obrazów, dźwięku i wideo
-
HellaSwag
Wymagające benchmarki uzupełniania zdań
-
HumanEval
Ocenia możliwości generowania kodu i rozwiązywania problemów
-
MATH
Testuje umiejętności rozwiązywania problemów matematycznych na różnych poziomach trudności
-
GPQA
Testuje wiedzę na poziomie doktorskim z chemii, biologii i fizyki poprzez pytania wielokrotnego wyboru wymagające głębokiej wiedzy specjalistycznej
80.1%
Diamond
Źródło
IFEval
Testuje zdolność modelu do dokładnego przestrzegania wyraźnych instrukcji formatowania, generowania odpowiednich wyników i utrzymania spójnego przestrzegania instrukcji w różnych zadaniach
-
SimpleQA
Ocena dokładności prostych pytań
66.2%
Źródło
AIME 2024
69%
Źródło
AIME 2025
98.7%
Aider Polyglot
Wielojęzyczny benchmark programistyczny.
-
LiveCodeBench v5
Benchmark programowania w czasie rzeczywistym
42.7%
v5
Źródło
Global MMLU (Lite)
Uproszczona wersja benchmarku do oceny uniwersalności modeli na poziomie globalnym.
-
MathVista
Ocenia zdolności rozumowania matematycznego modeli AI w kontekstach wizualnych
-
Aplikacja mobilna
-

Dodaj komentarz

Porównaj LLM


10%
Polityka prywatności i ciasteczka

Używamy plików cookies, by ułatwić korzystanie z naszych serwisów. Jeśli nie chcesz, by pliki cookies były zapisywane na Twoim dysku, zmień ustawienia swojej przeglądarki.