
Gemini 2.5 Pro to najbardziej zaawansowany model AI Google, zaprojektowany do głębokiego rozumowania i przemyślanego generowania odpowiedzi. Przewyższa kluczowe benchmarki, wykazując wyjątkową logikę i biegłość w kodowaniu. Zoptymalizowany do budowania dynamicznych aplikacji internetowych, autonomicznych systemów kodu i adaptacji kodu, zapewnia wysoką wydajność. Dzięki wbudowanym możliwościom multimodalnym i rozszerzonemu oknu kontekstu efektywnie przetwarza duże zbiory danych i integruje różne źródła informacji do rozwiązywania złożonych wyzwań.
„Grok 3“ to najnowocześniejszy model xAI, wytrenowany na superklastrze Colossus, który ma dziesięciokrotnie większą moc obliczeniową niż wcześniejsze modele najwyższej klasy. Posiada okno kontekstowe o pojemności 1 miliona tokenów i zaawansowane zdolności rozumowania, ulepszone dzięki uczeniu ze wzmocnieniem na dużą skalę, umożliwiając głębokie procesy myślowe trwające od sekund do minut w celu rozwiązywania złożonych problemów. Model osiąga najwyższą wydajność w testach akademickich i rzeczywistych ocenach użytkowników, zdobywając wynik Elo 1402 w Chatbot Arena. Został wydany wraz z Grok 3 Mini, ekonomiczną wersją zoptymalizowaną pod kątem uproszczonego rozumowania.
| Gemini 2.5 Pro | Grok 3 Beta | |
|---|---|---|
Strona internetowa
| ||
Dostawca
| ||
Czat
| ||
Data wydania
| ||
Modalności
| tekst obrazy głos wideo | tekst obrazy wideo |
Dostawcy API
| Google AI Studio, Vertex AI, Gemini app | xAI |
Data ostatniej aktualizacji wiedzy
| - | 2025-01 |
Open Source
| Nie | Nie |
Cena za wejście
| Niedostępne | Niedostępne |
Cena za wyjście
| Niedostępne | Niedostępne |
MMLU
| Niedostępne | Niedostępne |
MMLU-Pro
| Niedostępne | 79.9% Base model Źródło |
MMMU
| 81.7% Źródło | 78% With Think mode Źródło |
HellaSwag
| Niedostępne | Niedostępne |
HumanEval
| Niedostępne | Niedostępne |
MATH
| Niedostępne | Niedostępne |
GPQA
| 84.0% Diamond Science Źródło | 84.6% With Think mode, Diamond Źródło |
IFEval
| Niedostępne | Niedostępne |
SimpleQA
| 52.9% | - |
AIME 2024 | 92.0% | - |
AIME 2025 | 86.7% | - |
Aider Polyglot
| 74.0% / 68.6% | - |
LiveCodeBench v5
| 70.4% | - |
Global MMLU (Lite)
| 89.8% | - |
MathVista
| - | - |
Aplikacja mobilna | ||
VideoGameBench | ||
Łączny wynik | 0.48% | - |
Doom II | 0% | - |
Dream DX | 4.8% | - |
Awakening DX | 0% | - |
Civilization I | 0% | - |
Pokemon Crystal | 0% | - |
The Need for Speed | 0% | - |
The Incredible Machine | 0% | - |
Secret Game 1 | 0% | - |
Secret Game 2 | 0% | - |
Secret Game 3 | 0% | - |
MathArena | ||
| Średni wynik | 81% | - |
AIME 2025 Test oparty na zadaniach z konkursu matematycznego (American Invitational Mathematics Examination),mający na celu sprawdzenie umiejętności matematycznych modeli. | 87% | - |
HMMT February 2025 Test oparty na zadaniach z Harvard-MIT Mathematics Tournament, luty 2025, mający na celu sprawdzenie umiejętności matematycznych modeli. | 82% | - |
BRUMO 2025 | 90% | - |
SMT 2025 Test oparty na zadaniach z Stanford Math Tournament, 2025, mający na celu sprawdzenie umiejętności matematycznych modeli. | 85% | - |
CMIMC 2025 Test oparty na zadaniach z Canadian Mathematical Olympiad, 2025, mający na celu sprawdzenie umiejętności matematycznych modeli. | 58% | - |
Compare AI. Test. Benchmarks. Chatboty mobilne, Sketch
Copyright © 2026 All Right Reserved.
Komentarze (1)
Mazen
11 Sierpień 2025Good program