Grok 3 Beta

コメント: 1
Grok 3 Beta #0
Grok 3 Beta #1
Grok 3 Beta #2
Grok 3 Beta #3

Grok 3は、xAIの最も先進的なモデルで、以前の最先端モデルの10倍の計算能力を持つColossusスーパークラスターでトレーニングされています。1Mトークンのコンテキストウィンドウと高度な推論能力を誇り、大規模な強化学習によって強化され、複雑な問題を解決するために数秒から数分にわたる深い思考プロセスを可能にします。このモデルは、学術ベンチマークと実世界のユーザー評価でトップクラスのパフォーマンスを達成し、Chatbot Arenaで1402のEloスコアを獲得しました。Grok 3 Miniとともにリリースされ、合理化された推論に最適化されたコスト効率の高いバリアントです。

3792
261

総合ランキングにおける位置
6月 2026
13
ユーザー評価
https://compare-ai.foundtt.com
4.1

モデル概要

ウェブサイト
AIモデルのウェブページ
プロバイダー
このモデルを提供するエンティティ。
チャット
メッセージを入力してチャットを開始
リリース日
モデルが最初にリリースされた日時。
1 年 ago
1月 19, 2025
モダリティ
このモデルが処理できるデータの種類
テキスト ?
画像 ?
動画 ?
APIプロバイダー
このモデルを提供するプロバイダー。(これは完全なリストではありません。)
xAI
知識のカットオフ日
モデルの知識が最後に更新された日時。
2025-01
オープンソース
モデルのコードが公開されているかどうか。
いいえ
入力料金
プロンプト内のトークン処理のコスト
利用不可
出力料金
モデルによって生成されたトークンのコスト
利用不可
MMLU
Massive Multitask Language Understanding - 数学、歴史、法律など57の科目にわたる知識をテスト
利用不可
MMLU-Pro
より堅牢なMMLUベンチマークで、難易度の高い推論中心の質問、より大きな選択肢セット、プロンプト感度の低減を特徴とする
79.9%
Base model
ソース
MMMU
Massive Multitask Multimodal Understanding - テキスト、画像、音声、動画にわたる理解をテスト
78%
With Think mode
ソース
HellaSwag
挑戦的な文完成ベンチマーク
利用不可
HumanEval
コード生成と問題解決能力を評価
利用不可
MATH
さまざまな難易度レベルでの数学的問題解決能力をテスト
利用不可
GPQA
化学、生物学、物理学における博士レベルの知識を、深い専門知識を必要とする多肢選択問題でテスト
84.6%
With Think mode, Diamond
ソース
IFEval
モデルが明示的なフォーマット指示に正確に従い、適切な出力を生成し、異なるタスク間で一貫した指示遵守を維持する能力をテスト
利用不可
SimpleQA
シンプルな質問の精度評価
-
AIME 2024
-
AIME 2025
-
Aider Polyglot
多言語プログラミングベンチマーク
-
LiveCodeBench v5
リアルタイムプログラミングのベンチマーク
-
Global MMLU (Lite)
モデルの汎用性をグローバルレベルで評価するための簡易版ベンチマーク。
-
MathVista
視覚的な文脈におけるAIモデルの数学的推論能力を評価します
-
モバイルアプリケーション

コメント (1)

  1. Pierre

    09 4月 2026

    Ziet er goed uit

コメントを追加

LLMを比較


10%
当サイトはクッキーを使用しています。

プライバシーとクッキーポリシー: 当サイトはクッキーを使用しています。当サイトを引き続きご利用いただくことで、クッキーの使用に同意したことになります。