Grok 3 Beta AIの技術仕様とレビュー

Grok 3 Beta

コメント: 1

Grok 3は、xAIの最も先進的なモデルで、以前の最先端モデルの10倍の計算能力を持つColossusスーパークラスターでトレーニングされています。1Mトークンのコンテキストウィンドウと高度な推論能力を誇り、大規模な強化学習によって強化され、複雑な問題を解決するために数秒から数分にわたる深い思考プロセスを可能にします。このモデルは、学術ベンチマークと実世界のユーザー評価でトップクラスのパフォーマンスを達成し、Chatbot Arenaで1402のEloスコアを獲得しました。Grok 3 Miniとともにリリースされ、合理化された推論に最適化されたコスト効率の高いバリアントです。

3792

261

総合ランキングにおける位置
7月 2026

ユーザー評価
https://compare-ai.foundtt.com

4.1

モデル概要

ウェブサイト AIモデルのウェブページ	Open
プロバイダーこのモデルを提供するエンティティ。	xAI
チャットメッセージを入力してチャットを開始	Open
リリース日モデルが最初にリリースされた日時。	1 年 ago 1月 19, 2025
モダリティこのモデルが処理できるデータの種類	テキスト ? 画像 ? 動画 ?
APIプロバイダーこのモデルを提供するプロバイダー。（これは完全なリストではありません。）	xAI
知識のカットオフ日モデルの知識が最後に更新された日時。	2025-01
オープンソースモデルのコードが公開されているかどうか。	いいえ
入力料金プロンプト内のトークン処理のコスト	利用不可
出力料金モデルによって生成されたトークンのコスト	利用不可
MMLU Massive Multitask Language Understanding - 数学、歴史、法律など57の科目にわたる知識をテスト	利用不可
MMLU-Pro より堅牢なMMLUベンチマークで、難易度の高い推論中心の質問、より大きな選択肢セット、プロンプト感度の低減を特徴とする	79.9% Base model ソース
MMMU Massive Multitask Multimodal Understanding - テキスト、画像、音声、動画にわたる理解をテスト	78% With Think mode ソース
HellaSwag 挑戦的な文完成ベンチマーク	利用不可
HumanEval コード生成と問題解決能力を評価	利用不可
MATH さまざまな難易度レベルでの数学的問題解決能力をテスト	利用不可
GPQA 化学、生物学、物理学における博士レベルの知識を、深い専門知識を必要とする多肢選択問題でテスト	84.6% With Think mode, Diamond ソース
IFEval モデルが明示的なフォーマット指示に正確に従い、適切な出力を生成し、異なるタスク間で一貫した指示遵守を維持する能力をテスト	利用不可
SimpleQA シンプルな質問の精度評価	-
AIME 2024	-
AIME 2025	-
Aider Polyglot 多言語プログラミングベンチマーク	-
LiveCodeBench v5 リアルタイムプログラミングのベンチマーク	-
Global MMLU (Lite) モデルの汎用性をグローバルレベルで評価するための簡易版ベンチマーク。	-
MathVista 視覚的な文脈におけるAIモデルの数学的推論能力を評価します	-
モバイルアプリケーション	Google Play Apple Apps

コメント (1)

Pierre
09 4月 2026
Ziet er goed uit

Grok 3 Betaの仕様、レビュー、比較

Grok 3 Beta

モデル概要

コメント (1)

Pierre

コメントを追加

LLMを比較