Llama 4 Scout AI技术规格与评测

Llama 4 Scout

评论: 0

LLaMA 4 Scout 是一个拥有170亿参数的模型，采用混合专家架构（Mixture-of-Experts），并启用16个活跃专家，使其在同类多模态模型中处于领先地位。它在各种基准测试中持续超越Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1 等竞争对手。尽管性能强大，LLaMA 4 Scout 却非常高效 —— 可在一张 NVIDIA H100 GPU 上以 Int4 量化运行。同时，它具备领先业界的1000万Token上下文窗口，并且原生支持多模态，能够无缝处理文本、图像和视频输入，适用于高级现实场景应用。

4193

846

截至
六月 2026在总排名中的位置

用户评分
https://compare-ai.foundtt.com

4.1

模型概览

网站 AI模型网页	Open
提供商提供该模型的实体机构	Meta
聊天输入消息开始聊天	-
发布日期模型首次发布时间	1 年 ago 4月 05, 2025
模态模型可处理的数据类型	文本 ? 图像 ? 视频 ?
API提供商提供此模型的供应商（非完整列表）	Meta AI, Hugging Face, Fireworks, Together, DeepInfra
知识截止日期模型知识最后更新时间	2025-04
开源模型代码是否公开可用	是 (来源)
输入定价处理提示词中token的成本	不可用
输出定价模型生成token的成本	不可用
MMLU 多任务语言理解测试 - 评估数学、历史、法律等57个学科的知识掌握	不可用
MMLU-Pro 增强版MMLU基准测试，包含更难的推理题、更多选项集并降低提示敏感性	74.3% Reasoning & Knowledge 来源
MMMU 多任务多模态理解测试 - 评估文本、图像、音频和视频的综合理解能力	69.4% Image Reasoning 来源
HellaSwag 高难度句子补全基准测试	不可用
HumanEval 评估代码生成和问题解决能力	不可用
MATH 测试不同难度级别的数学问题解决能力	不可用
GPQA 通过需要深度专业知识的选择题测试化学、生物和物理领域的博士水平知识	57.2% Diamond 来源
IFEval 测试模型准确遵循格式指令、生成适当输出并在不同任务中保持指令一致性的能力	不可用
SimpleQA 评估简单问题的准确性	-
AIME 2024	-
AIME 2025	-
Aider Polyglot 多语言编程基准。	-
LiveCodeBench v5 实时编程基准测试	-
Global MMLU (Lite) 用于评估模型在全球层面通用性的简化基准测试。	-
MathVista 评估人工智能模型在视觉环境中的数学推理能力	-
移动应用	-

Llama 4 Scout规格、评测与对比

Llama 4 Scout

模型概览

添加评论

对比LLM