Gemini 1.5 Flash:Google 对 GPT-4o 的回应?
AI 竞赛日益激烈,成为科技巨头之间的追逐游戏。GPT-4o 在 Google I/O 之前推出,其多模态(或称全模态)功能惊人,对生成 AI 竞赛产生了重大影响。然而,Google 也不甘示弱。在 Google I/O 期间,他们宣布了新款的 Gemini 和 Gemma 模型。其中,Gemini 1.5 Flash 脱颖而出,成为最具影响力的模型。在本文中,我们将探讨 Gemini 1.5 Flash 的顶级功能,并与 Gemini 1.5 Pro 进行比较,以确定哪个更佳。
价格和基准
根据 Google 公布的基准分数,Gemini 1.5 Flash 在音频性能上优于 Google 的所有其他大型语言模型(LLM),并且在其他基准上与即将推出的 Gemini 1.5 Pro(2024 年 2 月)模型相当。尽管我们不建议完全依赖基准来评估任何 LLM 的性能,但它们有助于量化性能差异和小幅升级。
Gemini 1.5 Flash 价格
一个不容忽视的问题是 Gemini 1.5 Flash 的成本。相比 GPT-4o,Gemini 1.5 Flash 更加实惠。
- Gemini 价格
输入 | 输出 | |
---|---|---|
$0.35 / 100 万 tokens(128k down) $0.70 / 100 万 tokens(128k up) |
$1.05 / 100 万 tokens(128k down) $2.10 / 100 万 tokens(128k up) |
- GPT 价格
输入 | 输出 | |
---|---|---|
$5.00 / 百万 tokens | $15.00 / 百万 tokens |
上下文窗口
与 Gemini 1.5 Pro 一样,Flash 具有 100 万个 token 的上下文窗口,这比任何 OpenAI 模型都大,是生产级 LLM 中最大的上下文窗口之一。更大的上下文窗口允许更多的数据理解,并可以通过增加块大小来改进第三方技术(如 RAG,检索增强生成)在大型知识库中的应用。此外,更大的上下文窗口允许生成更多文本,这在撰写文章、电子邮件和新闻稿等场景中非常有用。
多模态功能
Gemini 1.5 Flash 是多模态的。多模态允许以音频、视频、文档等形式输入上下文。具有多模态的 LLM 更加多才多艺,打开了生成 AI 应用的更多大门,而无需任何预处理。
Gemini 1.5 模型可以处理非常长的上下文,这种规模在当代大型语言模型(LLM)中是前所未有的,使其能够处理包括整个文档集、数小时视频和近五天音频的长篇混合模态输入。
多模态的应用
多模态功能还允许我们将 LLM 作为其他专业服务的替代品。例如,OCR 或网页抓取。
速度
顾名思义,Gemini 1.5 Flash 在响应时间方面设计具有优势。例如,上述网页抓取示例中,响应时间约为 2.5 秒,几乎快 40%,使得 Gemini 1.5 Flash 成为自动