Meta 推出 Llama 3.1:开源 AI 的新里程碑

Meta 推出了 Llama 3.1 系列模型,其中包括 405B 参数的旗舰模型,这是首个能与顶级闭源 AI 模型相媲美的开源模型。新模型扩展了上下文长度,支持多种语言,并提供了更强大的推理能力。

Meet llama 3.1 图片转自 Meet llama 3.1

Llama 3.1 简介

Llama 3.1 405B 是首个公开可用的模型,在通用知识、可控性、数学、工具使用和多语言翻译方面可与顶级 AI 模型相媲美。这个版本还包括升级版的 8B 和 70B 模型,这些模型都是多语言的,具有显著更长的 128K 上下文长度,最先进的工具使用能力,以及整体更强的推理能力。

这使得Meta最新的模型能够支持高级用例,如长文本摘要、多语言对话代理和编码助手。Meta还修改了许可证,允许开发者使用 Llama 模型的输出来自改进其他模型。

模型架构

训练 Llama 3.1 405B 是一个重大挑战,需要在超过 15 万亿个标记上进行训练。为了在合理的时间内实现这一规模的训练并达到Meta的结果,Meta显著优化了Meta的完整训练堆栈,并将Meta的模型训练推至超过 16,000 个 H100 GPU。

Meta采用了标准的仅解码器 transformer 模型架构,而不是专家混合模型,以最大化训练稳定性。Meta采用了迭代的后训练程序,每一轮都使用监督微调和直接偏好优化。

指令和聊天微调

在 Llama 3.1 405B 中,Meta努力提高模型对用户指令的帮助性、质量和详细指令遵循能力,同时确保高水平的安全性。Meta的最大挑战是支持更多功能、128K 上下文窗口和增加的模型大小。

在后训练中,Meta通过对预训练模型进行多轮对齐来生成最终的聊天模型。每一轮都涉及监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO)。

Llama 系统

Llama 模型一直旨在作为整体系统的一部分工作,该系统可以协调多个组件,包括调用外部工具。Meta的愿景是超越基础模型,为开发者提供更广泛的系统访问权限,使他们能够灵活设计和创建符合其愿景的自定义产品。

作为Meta持续努力在模型层之外负责任地发展 AI 并帮助他人做同样事情的一部分,Meta正在发布一个完整的参考系统,其中包括几个示例应用程序和新组件,如 Llama Guard 3(一个多语言安全模型)和 Prompt Guard(一个提示注入过滤器)。

开放性推动创新

与闭源模型不同,Llama 模型权重可供下载。开发者可以完全根据自己的需求和应用定制模型,在新数据集上训练,并进行额外的微调。这使得更广泛的开发者社区和世界能够更充分地实现生成式 AI 的力量。

使用 Llama 3.1 405B 构建

对于普通开发者来说,使用 405B 规模的模型具有挑战性。虽然它是一个非常强大的模型,但Meta认识到它需要大量的计算资源和专业知识才能使用。Meta与社区进行了交流,Meta意识到生成式 AI 开发远不止提示模型那么简单。

Meta希望让每个人都能充分利用 405B,包括:实时和批量推理、监督微调、特定应用的模型评估、持续预训练、检索增强生成(RAG)、函数调用和合成数据生成。

立即尝试 Llama 3.1 模型系列

Meta迫不及待地想看到社区用这项工作做些什么。利用多语言性和增加的上下文长度,有很多潜力可以构建有用的新体验。随着 Llama Stack 和新的安全工具的推出,Meta期待继续与开源社区一起负责任地构建。

在发布模型之前,Meta通过几项措施来识别、评估和减轻潜在风险,包括通过红队进行部署前风险发现演习和安全微调。例如,Meta与外部和内部专家进行广泛的红队测试,以压力测试模型并找出可能被使用的意外方式。

虽然这是Meta迄今为止最大的模型,但Meta相信未来还有很多新的领域可以探索,包括更适合设备的规模、额外的模态,以及对代理平台层的更多投资。一如既往,Meta期待看到社区将用这些模型构建的所有令人惊叹的产品和体验。

Share on:
Previous: Mistral Large 2:突破性的人工智能语言模型
Next: OpenAI 提供 GPT-4o mini 模型限时免费微调服务
DMflow.chat

DMflow.chat

一站式整合Facebook、Instagram、Telegram、LINE和网站的聊天机器人,支持ChatGPT和Gemini模型,具备保留历史记录、推送通知、营销活动和客服转接功能。

25 July 2024

Mistral Large 2:突破性的人工智能语言模型

Mistral Large 2:突破性的人工智能语言模型 Mistral Large 2 是一款新一代的大型语言模型,具有卓越的成本效益、速度和性能。它支持多种语言和编程语言,并在多个基准测试...