Grok 4 AIの技術仕様とレビュー

Grok 4

コメント: 0

4314

377

総合ランキングにおける位置
7月 2026

ユーザー評価
https://compare-ai.foundtt.com

4.4

モデル概要

ウェブサイト AIモデルのウェブページ	Open
プロバイダーこのモデルを提供するエンティティ。	xAI
チャットメッセージを入力してチャットを開始	Open
リリース日モデルが最初にリリースされた日時。	1 年 ago 7月 09, 2025
モダリティこのモデルが処理できるデータの種類	テキスト ? 画像 ? 音声 ? 動画 ?
APIプロバイダーこのモデルを提供するプロバイダー。（これは完全なリストではありません。）	xAI
知識のカットオフ日モデルの知識が最後に更新された日時。	-
オープンソースモデルのコードが公開されているかどうか。	いいえ
入力料金プロンプト内のトークン処理のコスト	$3.00 100万トークンあたり
出力料金モデルによって生成されたトークンのコスト	$15.00 100万トークンあたり
MMLU Massive Multitask Language Understanding - 数学、歴史、法律など57の科目にわたる知識をテスト	-
MMLU-Pro より堅牢なMMLUベンチマークで、難易度の高い推論中心の質問、より大きな選択肢セット、プロンプト感度の低減を特徴とする	-
MMMU Massive Multitask Multimodal Understanding - テキスト、画像、音声、動画にわたる理解をテスト	-
HellaSwag 挑戦的な文完成ベンチマーク	-
HumanEval コード生成と問題解決能力を評価	-
MATH さまざまな難易度レベルでの数学的問題解決能力をテスト	-
GPQA 化学、生物学、物理学における博士レベルの知識を、深い専門知識を必要とする多肢選択問題でテスト	87.5% Science ソース
IFEval モデルが明示的なフォーマット指示に正確に従い、適切な出力を生成し、異なるタスク間で一貫した指示遵守を維持する能力をテスト	-
SimpleQA シンプルな質問の精度評価	-
AIME 2024	-
AIME 2025	91.7% Competition Math ソース
Aider Polyglot 多言語プログラミングベンチマーク	-
LiveCodeBench v5 リアルタイムプログラミングのベンチマーク	79% Competitive Coding ソース
Global MMLU (Lite) モデルの汎用性をグローバルレベルで評価するための簡易版ベンチマーク。	-
MathVista 視覚的な文脈におけるAIモデルの数学的推論能力を評価します	-
モバイルアプリケーション	Google Play Apple Apps
MathArena ?
平均スコア	89%
AIME 2025 アメリカ招待数学試験（American Invitational Mathematics Examination）の問題に基づいたテストで、モデルの数学的能力を評価することを目的としています。	91%
HMMT February 2025 2025年2月のハーバードMIT数学トーナメントの問題に基づいたテストで、モデルの数学的能力を評価することを目的としています。	92%
BRUMO 2025	95%
SMT 2025 2025年のスタンフォード数学トーナメントの問題に基づいたテストで、モデルの数学的能力を評価することを目的としています。	86%
CMIMC 2025 2025年のカナダ数学オリンピックの問題に基づいたテストで、モデルの数学的能力を評価することを目的としています。	83%

Grok 4の仕様、レビュー、比較

Grok 4

モデル概要

MathArena ?

コメントを追加

LLMを比較