




Meta推出的Llama 3.3 70B Instruct是多语言大模型,专为指令任务微调并优化对话应用。支持128,000 token上下文窗口,可处理生成多语言文本。2024年12月6日发布,在多项行业基准测试中超越众多开源和商业聊天模型。采用分组查询注意力(GQA)提升扩展性,基于超过15万亿token的公开数据训练,知识截止至2023年12月。
网站 AI模型网页 | |
提供商 提供该模型的实体机构 | |
聊天 输入消息开始聊天 | - |
发布日期 模型首次发布时间 | 1 年 ago 12月 06, 2024 |
模态 模型可处理的数据类型 | 文本 |
API提供商 提供此模型的供应商(非完整列表) | Fireworks, Together, DeepInfra, Hyperbolic |
知识截止日期 模型知识最后更新时间 | 12.2024 |
开源 模型代码是否公开可用 | 是 |
输入定价 处理提示词中token的成本 | $0.23 每百万token |
输出定价 模型生成token的成本 | $0.40 每百万token |
MMLU 多任务语言理解测试 - 评估数学、历史、法律等57个学科的知识掌握 | 86% 0-shot, CoT 来源 |
MMLU-Pro 增强版MMLU基准测试,包含更难的推理题、更多选项集并降低提示敏感性 | 68.9% 5-shot, CoT 来源 |
MMMU 多任务多模态理解测试 - 评估文本、图像、音频和视频的综合理解能力 | 不可用 |
HellaSwag 高难度句子补全基准测试 | 不可用 |
HumanEval 评估代码生成和问题解决能力 | 88.4% pass@1 来源 |
MATH 测试不同难度级别的数学问题解决能力 | 77% 0-shot, CoT 来源 |
GPQA 通过需要深度专业知识的选择题测试化学、生物和物理领域的博士水平知识 | 50.5% 0-shot, CoT 来源 |
IFEval 测试模型准确遵循格式指令、生成适当输出并在不同任务中保持指令一致性的能力 | 92.1% 来源 |
SimpleQA 评估简单问题的准确性 | - |
AIME 2024 | - |
AIME 2025 | - |
Aider Polyglot 多语言编程基准。 | - |
LiveCodeBench v5 实时编程基准测试 | - |
Global MMLU (Lite) 用于评估模型在全球层面通用性的简化基准测试。 | - |
MathVista 评估人工智能模型在视觉环境中的数学推理能力 | - |
移动应用 | - |