Grok 3は、xAIの最も先進的なモデルで、以前の最先端モデルの10倍の計算能力を持つColossusスーパークラスターでトレーニングされています。1Mトークンのコンテキストウィンドウと高度な推論能力を誇り、大規模な強化学習によって強化され、複雑な問題を解決するために数秒から数分にわたる深い思考プロセスを可能にします。このモデルは、学術ベンチマークと実世界のユーザー評価でトップクラスのパフォーマンスを達成し、Chatbot Arenaで1402のEloスコアを獲得しました。Grok 3 Miniとともにリリースされ、合理化された推論に最適化されたコスト効率の高いバリアントです。
Gemini 2.5 Pro は、Google が開発した最先端の AI モデルであり、深い推論と的確な応答生成のために設計されています。主要なベンチマークで優れた成績を収め、論理的思考やコーディングの精度において卓越したパフォーマンスを発揮します。動的な Web アプリケーション、自律型コードシステム、コード適応の構築に最適化されており、高度な性能を提供します。さらに、マルチモーダル機能と拡張コンテキストウィンドウを備えており、大規模なデータセットを効率的に処理し、多様な情報ソースを統合して複雑な課題に対応します。
Grok 3 Beta | Gemini 2.5 Pro | |
---|---|---|
ウェブサイト
| ||
プロバイダー
| ||
チャット
| ||
リリース日
| ||
モダリティ
| テキスト 画像 動画 | テキスト 画像 音声 動画 |
APIプロバイダー
| xAI | Google AI Studio, Vertex AI, Gemini app |
知識のカットオフ日
| 2025-01 | - |
オープンソース
| いいえ | いいえ |
入力料金
| 利用不可 | 利用不可 |
出力料金
| 利用不可 | 利用不可 |
MMLU
| 利用不可 | 利用不可 |
MMLU-Pro
| 79.9% Base model ソース | 利用不可 |
MMMU
| 78% With Think mode ソース | 81.7% ソース |
HellaSwag
| 利用不可 | 利用不可 |
HumanEval
| 利用不可 | 利用不可 |
MATH
| 利用不可 | 利用不可 |
GPQA
| 84.6% With Think mode, Diamond ソース | 84.0% Diamond Science ソース |
IFEval
| 利用不可 | 利用不可 |
SimpleQA
| - | 52.9% |
AIME 2024 | - | 92.0% |
AIME 2025 | - | 86.7% |
Aider Polyglot
| - | 74.0% / 68.6% |
LiveCodeBench v5
| - | 70.4% |
Global MMLU (Lite)
| - | 89.8% |
MathVista
| - | - |
モバイルアプリケーション | ||
VideoGameBench | ||
総合スコア | - | 0.48% |
Doom II | - | 0% |
Dream DX | - | 4.8% |
Awakening DX | - | 0% |
Civilization I | - | 0% |
Pokemon Crystal | - | 0% |
The Need for Speed | - | 0% |
The Incredible Machine | - | 0% |
Secret Game 1 | - | 0% |
Secret Game 2 | - | 0% |
Secret Game 3 | - | 0% |
Compare AI. Test. Benchmarks. モバイルアプリチャットボット, Sketch
Copyright © 2025 All Right Reserved.