Grok 3 Beta

Comentarios: 1
Grok 3 Beta #0
Grok 3 Beta #1
Grok 3 Beta #2
Grok 3 Beta #3

„Grok 3“ es el modelo más avanzado de xAI, entrenado en el superclúster Colossus con una potencia computacional diez veces superior a la de los modelos anteriores más avanzados. Cuenta con una ventana de contexto de 1 millón de tokens y capacidades de razonamiento avanzado, mejoradas mediante aprendizaje por refuerzo a gran escala, lo que permite procesos de pensamiento profundo que van desde segundos hasta minutos para resolver problemas complejos. El modelo alcanza un rendimiento de primer nivel en pruebas académicas y evaluaciones de usuarios en el mundo real, obteniendo una puntuación Elo de 1402 en la Chatbot Arena. Fue lanzado junto con Grok 3 Mini, una variante rentable optimizada para un razonamiento más eficiente.

3792
261

Posición en el ranking general al
Junio 2026
13
Calificación de usuarios
https://compare-ai.foundtt.com
4.1

Resumen del Modelo

Sitio Web
Página Web del Modelo de IA
Proveedor
La entidad que proporciona este modelo.
Chat
Ingresa un mensaje para comenzar a chatear
Fecha de Lanzamiento
Cuándo se lanzó el modelo por primera vez.
1 año ago
Ene 19, 2025
Modalidades
Tipos de datos que este modelo puede procesar
texto ?
imágenes ?
video ?
Proveedores de API
Los proveedores que ofrecen este modelo. (Esta no es una lista exhaustiva).
xAI
Fecha de Corte de Conocimiento
Cuándo se actualizó por última vez el conocimiento del modelo.
2025-01
Código Abierto
Si el código del modelo está disponible para uso público.
No
Costo de Entrada
Costo por procesar tokens en tus solicitudes
No disponible
Costo de Salida
Costo por tokens generados por el modelo
No disponible
MMLU
Evaluación de Comprensión Multitarea Masiva - Pruebas de conocimiento en 57 disciplinas, incluyendo matemáticas, historia, derecho y más.
No disponible
MMLU-Pro
Un criterio MMLU más avanzado con preguntas más difíciles enfocadas en el razonamiento, un mayor conjunto de opciones y menor sensibilidad a los prompts.
79.9%
Base model
Fuente
MMMU
Evaluación de Comprensión Multitarea Multimodal - Pruebas de comprensión en texto, imágenes, audio y video.
78%
With Think mode
Fuente
HellaSwag
Un exigente criterio de evaluación para completar oraciones.
No disponible
HumanEval
Evalúa la generación de código y habilidades de resolución de problemas.
No disponible
MATH
Pruebas de resolución de problemas matemáticos en distintos niveles de dificultad.
No disponible
GPQA
Evalúa conocimientos a nivel de doctorado en química, biología y física mediante preguntas de opción múltiple que requieren una comprensión profunda del dominio.
84.6%
With Think mode, Diamond
Fuente
IFEval
Evalúa la capacidad del modelo para seguir instrucciones de formato explícitas, generar respuestas adecuadas y mantener la coherencia en diversas tareas.
No disponible
SimpleQA
Evaluación de la precisión de preguntas simples
-
AIME 2024
-
AIME 2025
-
Aider Polyglot
Benchmark de programación multilingüe.
-
LiveCodeBench v5
Benchmark para programación en tiempo real
-
Global MMLU (Lite)
Una versión simplificada del benchmark para evaluar la universalidad de los modelos a nivel global.
-
MathVista
Evalúa las habilidades de razonamiento matemático de los modelos de IA dentro de contextos visuales
-
Aplicación Móvil

Comentarios (1)

  1. Pierre

    09 Abril 2026

    Ziet er goed uit

Agregar un Comentario

Comparar LLMs


10%
Nuestro sitio utiliza cookies.

Política de privacidad y cookies: este sitio utiliza cookies. Si continúa utilizando el sitio, acepta su uso.