建立时间: 2024-07-25 | 最后修改时间: 2024-07-26 | 1 分钟阅读

Meta 推出 Llama 3.1：开源 AI 的新里程碑

Meta 推出了 Llama 3.1 系列模型，其中包括 405B 参数的旗舰模型，这是首个能与顶级闭源 AI 模型相媲美的开源模型。新模型扩展了上下文长度，支持多种语言，并提供了更强大的推理能力。

Llama 3.1 简介

Llama 3.1 405B 是首个公开可用的模型，在通用知识、可控性、数学、工具使用和多语言翻译方面可与顶级 AI 模型相媲美。这个版本还包括升级版的 8B 和 70B 模型，这些模型都是多语言的，具有显著更长的 128K 上下文长度，最先进的工具使用能力，以及整体更强的推理能力。

这使得Meta最新的模型能够支持高级用例，如长文本摘要、多语言对话代理和编码助手。Meta还修改了许可证，允许开发者使用 Llama 模型的输出来自改进其他模型。

模型架构

训练 Llama 3.1 405B 是一个重大挑战，需要在超过 15 万亿个标记上进行训练。为了在合理的时间内实现这一规模的训练并达到Meta的结果，Meta显著优化了Meta的完整训练堆栈，并将Meta的模型训练推至超过 16,000 个 H100 GPU。

Meta采用了标准的仅解码器 transformer 模型架构，而不是专家混合模型，以最大化训练稳定性。Meta采用了迭代的后训练程序，每一轮都使用监督微调和直接偏好优化。

指令和聊天微调

在 Llama 3.1 405B 中，Meta努力提高模型对用户指令的帮助性、质量和详细指令遵循能力，同时确保高水平的安全性。Meta的最大挑战是支持更多功能、128K 上下文窗口和增加的模型大小。

在后训练中，Meta通过对预训练模型进行多轮对齐来生成最终的聊天模型。每一轮都涉及监督微调（SFT）、拒绝采样（RS）和直接偏好优化（DPO）。

Llama 系统

Llama 模型一直旨在作为整体系统的一部分工作，该系统可以协调多个组件，包括调用外部工具。Meta的愿景是超越基础模型，为开发者提供更广泛的系统访问权限，使他们能够灵活设计和创建符合其愿景的自定义产品。

作为Meta持续努力在模型层之外负责任地发展 AI 并帮助他人做同样事情的一部分，Meta正在发布一个完整的参考系统，其中包括几个示例应用程序和新组件，如 Llama Guard 3（一个多语言安全模型）和 Prompt Guard（一个提示注入过滤器）。

开放性推动创新

与闭源模型不同，Llama 模型权重可供下载。开发者可以完全根据自己的需求和应用定制模型，在新数据集上训练，并进行额外的微调。这使得更广泛的开发者社区和世界能够更充分地实现生成式 AI 的力量。

使用 Llama 3.1 405B 构建

对于普通开发者来说，使用 405B 规模的模型具有挑战性。虽然它是一个非常强大的模型，但Meta认识到它需要大量的计算资源和专业知识才能使用。Meta与社区进行了交流，Meta意识到生成式 AI 开发远不止提示模型那么简单。

Meta希望让每个人都能充分利用 405B，包括：实时和批量推理、监督微调、特定应用的模型评估、持续预训练、检索增强生成（RAG）、函数调用和合成数据生成。

立即尝试 Llama 3.1 模型系列

Meta迫不及待地想看到社区用这项工作做些什么。利用多语言性和增加的上下文长度，有很多潜力可以构建有用的新体验。随着 Llama Stack 和新的安全工具的推出，Meta期待继续与开源社区一起负责任地构建。

在发布模型之前，Meta通过几项措施来识别、评估和减轻潜在风险，包括通过红队进行部署前风险发现演习和安全微调。例如，Meta与外部和内部专家进行广泛的红队测试，以压力测试模型并找出可能被使用的意外方式。

虽然这是Meta迄今为止最大的模型，但Meta相信未来还有很多新的领域可以探索，包括更适合设备的规模、额外的模态，以及对代理平台层的更多投资。一如既往，Meta期待看到社区将用这些模型构建的所有令人惊叹的产品和体验。

Share on:

Meta 推出 Llama 3.1：开源 AI 的新里程碑

Llama 3.1 简介

模型架构

指令和聊天微调

Llama 系统

开放性推动创新

使用 Llama 3.1 405B 构建

立即尝试 Llama 3.1 模型系列

DMflow.chat

广告

Mistral Large 2：突破性的人工智能语言模型

Anthropic 推出 Claude 3.5 Sonnet：性能超越 GPT-4o？

ChatGPT模型演进：从3.5到4.0，再到4o和4o mini的全面比较

SearchGPT 原型：AI 搜寻的新时代

ChatGPT升级语音互动：OpenAI推出高级语音模式，为AI对话体验带来革新

Communeify

Hello, we want to use some third-party cookies and scripts to enhance the functionality of this website.

Meta 推出 Llama 3.1：开源 AI 的新里程碑

Llama 3.1 简介

模型架构

指令和聊天微调

Llama 系统

开放性推动创新

使用 Llama 3.1 405B 构建

立即尝试 Llama 3.1 模型系列

DMflow.chat

广告

Mistral Large 2：突破性的人工智能语言模型

Anthropic 推出 Claude 3.5 Sonnet：性能超越 GPT-4o？

ChatGPT模型演进：从3.5到4.0，再到4o和4o mini的全面比较

SearchGPT 原型：AI 搜寻的新时代

ChatGPT升级语音互动：OpenAI推出高级语音模式，为AI对话体验带来革新

Communeify

Links