GPT-OSS

Comentarios: 0
GPT-OSS #0
GPT-OSS #1
0
0

Posición en el ranking general al
Junio 2026
19
Calificación de usuarios
https://compare-ai.foundtt.com
4.1

Resumen del Modelo

Sitio Web
Página Web del Modelo de IA
Proveedor
La entidad que proporciona este modelo.
Chat
Ingresa un mensaje para comenzar a chatear
Fecha de Lanzamiento
Cuándo se lanzó el modelo por primera vez.
9 meses ago
Ago 05, 2025
Modalidades
Tipos de datos que este modelo puede procesar
texto ?
Proveedores de API
Los proveedores que ofrecen este modelo. (Esta no es una lista exhaustiva).
Self-hosted, Hugging Face, AWS, Azure, Databricks
Fecha de Corte de Conocimiento
Cuándo se actualizó por última vez el conocimiento del modelo.
-
Código Abierto
Si el código del modelo está disponible para uso público.
Costo de Entrada
Costo por procesar tokens en tus solicitudes
$0.15 por millón de tokens
Costo de Salida
Costo por tokens generados por el modelo
$0.60 por millón de tokens
MMLU
Evaluación de Comprensión Multitarea Masiva - Pruebas de conocimiento en 57 disciplinas, incluyendo matemáticas, historia, derecho y más.
82.7%
Fuente
MMLU-Pro
Un criterio MMLU más avanzado con preguntas más difíciles enfocadas en el razonamiento, un mayor conjunto de opciones y menor sensibilidad a los prompts.
-
MMMU
Evaluación de Comprensión Multitarea Multimodal - Pruebas de comprensión en texto, imágenes, audio y video.
-
HellaSwag
Un exigente criterio de evaluación para completar oraciones.
-
HumanEval
Evalúa la generación de código y habilidades de resolución de problemas.
-
MATH
Pruebas de resolución de problemas matemáticos en distintos niveles de dificultad.
-
GPQA
Evalúa conocimientos a nivel de doctorado en química, biología y física mediante preguntas de opción múltiple que requieren una comprensión profunda del dominio.
80.1%
Diamond
Fuente
IFEval
Evalúa la capacidad del modelo para seguir instrucciones de formato explícitas, generar respuestas adecuadas y mantener la coherencia en diversas tareas.
-
SimpleQA
Evaluación de la precisión de preguntas simples
66.2%
Fuente
AIME 2024
69%
Fuente
AIME 2025
98.7%
Aider Polyglot
Benchmark de programación multilingüe.
-
LiveCodeBench v5
Benchmark para programación en tiempo real
42.7%
v5
Fuente
Global MMLU (Lite)
Una versión simplificada del benchmark para evaluar la universalidad de los modelos a nivel global.
-
MathVista
Evalúa las habilidades de razonamiento matemático de los modelos de IA dentro de contextos visuales
-
Aplicación Móvil
-

Agregar un Comentario

Comparar LLMs


10%
Nuestro sitio utiliza cookies.

Política de privacidad y cookies: este sitio utiliza cookies. Si continúa utilizando el sitio, acepta su uso.