谷歌云正在公开其旗舰人工智能模型–Gemini 1.5 Flash 和 Pro 的两个变体
谷歌云正在公开其旗舰人工智能模型–Gemini 1.5 Flash 和 Pro 的两个变体。前者是一种小型多模态模型,具有 100 万个上下文窗口,可处理狭窄的高频任务。它于今年 5 月在谷歌 I/O 大会上首次推出。后者是谷歌 LLM 功能最强大的版本,于今年 2 月首次亮相,之后显著升级为包含 200 万个上下文窗口。现在,该版本已向所有开发者开放。
这些 Gemini 变体的发布旨在展示谷歌的人工智能工作如何帮助企业开发 “引人注目的 “人工智能代理和解决方案。在一次新闻发布会上,谷歌云首席执行官托马斯-库里安(Thomas Kurian)夸耀说,该公司在生成式人工智能方面的努力取得了 “令人难以置信的势头”,埃森哲、空中客车、Anthropic、Box、博通、Cognizant、Confluent、Databricks、德勤、Equifax、雅诗兰黛公司、福特、GitLab、通用汽车、金州勇士队、高盛、Hugging Face、IHG Hotels and Resorts、汉莎集团、穆迪、三星等组织都在其平台上进行开发。他将这一采用率的增长归功于谷歌模型的能力与公司顶点平台的结合。谷歌将 “继续在这两个层面快速引入新功能”。
谷歌还将发布上下文缓存和配置吞吐量,这些新的模型功能旨在增强开发人员的体验。
双子座 1.5 闪存
Gemini 1.5 Flash 为开发人员提供了更低的延迟、实惠的价格以及适合零售聊天代理、文档处理和可合成整个资源库的机器人的上下文窗口。谷歌称,当输入 10,000 个字符时,Gemini 1.5 Flash 的平均速度比 GPT-3.5 Turbo 快 40%。它的输入价格比 OpenAI 的模型低四倍,输入超过 32,000 个字符时启用上下文缓存。
2024 年 VB 变革倒计时
7 月 9 日至 11 日,在旧金山与企业领袖们一起参加我们的人工智能旗舰活动。与同行交流,探索生成式人工智能的机遇和挑战,了解如何将人工智能应用集成到您的行业中。立即注册
双子座 1.5 Pro
至于 Gemini 1.5 Pro,开发人员将为拥有更大的上下文窗口而兴奋不已。它拥有 200 万个代币,在同类产品中独占鳌头,因为没有一个著名的人工智能模型拥有如此高的上限。这意味着该模型在生成响应之前可以处理和考虑比以往更多的文本。”库里安说:”你可能会问,’给我翻译成现实术语’。”两百万个上下文窗口意味着你可以将两小时的高清视频输入模型,并让模型将其理解为一件事。你不必把它分成几块。你可以将其作为一个整体输入。你几乎可以处理一整天的音频、一两个小时的视频、超过 6 万行的代码和超过 150 万个单词。我们看到许多公司都发现了这一点的巨大价值。
Kurian 解释了 Gemini 1.5 Flash 和 Pro 之间的区别: “他说:”这不仅仅是客户类型的问题,而是客户内部的具体[使用]案例。他以谷歌的 I/O 主题演讲作为最近的一个实际例子。”如果你想把整个主题演讲–不是简短版本,而是两个小时的主题演讲–处理成一个视频,你会使用 [Gemini 1.5] Pro,因为这是一个两个小时的视频。如果你想做一些超低延迟的事情……那么你就会使用 Flash,因为它被设计为一种速度更快、延迟更可预测的模型,并且能够推理多达一百万个代币。
Gemini 1.5 Pro 和 Flash 现已支持上下文缓存
为了帮助开发人员利用 Gemini 的不同上下文窗口,谷歌在 Gemini 1.5 Pro 和 Flash 的公开预览版中推出了上下文缓存功能。上下文缓存允许模型存储和重用已有信息,而无需在收到请求时从头开始重新计算。这对冗长的对话或文档很有帮助,还能降低开发人员的计算成本。谷歌显示,上下文缓存可以将输入成本降低 75%。随着上下文窗口的增加,这一功能将变得更加重要。
为双子座调配吞吐量
有了预留吞吐量,开发人员可以更好地扩展谷歌 Gemini 模型的使用。该功能可确定模型在一段时间内可处理的查询或文本数量。以前,开发人员采用的是 “现收现付模式”,但现在他们可以选择 “调配吞吐量”,这将使他们在处理生产工作负载时具有更好的可预测性和可靠性。
“Kurian 分享说:”调配吞吐量允许我们为客户预留推理能力。”但是,如果他们想预留一定的容量,例如,如果他们正在运行一个大型活动,而且用户数量急剧增加,就像我们在一些社交网站上看到的那样,他们就需要预留一定的容量。