Google 推出更快、更具成本效益的 Gemini 3 型号,响应时间加快 2.5 倍,输出速度加快 45%

美国东部时间 3 月 3 日星期二,谷歌推出了 Gemini 3.1 Flash-Lite,这是 Gemini 3 系列中速度最快、性价比最高的型号。它专为高频、大规模开发人员工作负载而设计,以低廉的价格提供无与伦比的智能性能。 Gemini 3.1 Flash-Lite 从今天开始向开发者提供预览版,可通过 Google AI Studio 中的 Gemini API 访问,企业用户可通过 Google Cloud Vertex AI 平台使用。使用该模型不需要特定的硬件或软件配置,用户可以通过 API 调用来访问它。谷歌透露,根据人工分析基准测试,与 Gemini 2.5 Flash 相比,3.1 Flash-Lite 的首次响应时间提高了 2.5 倍,输出速度提高了 45%,同时保持相似或更好的质量水平。谷歌表示,该模型在 Arena.ai 排名中获得了 1.432 的 Elo 分数,在多推理和多模态理解基准测试中优于同级别的其他模型rks,甚至超过了上一代最大的 Gemini 模型。 Latitude、Cartwheel 和Whereing 等公司目前正在早期试验中使用该模型,并报告了显着的效率和成本效益。定位与价格:高频场景下第一个盈利选择。 Google DeepMind 在其模型描述文件中将 3.1 Flash-Lite 定位为“经济高效、快速且针对高频、延迟敏感任务(例如翻译和内容分类)进行优化”的模型。这是 Gemini 3 系列原生多模态推理模型家族的新成员。在定价方面,3.1 Flash-Lite 的成本为每百万个输入代币 0.25 美元,每百万个输出代币 1.50 美元。谷歌在其官方博客上并指出其价格是u它是较大模型的一小部分,适合需要大规模部署的开发人员和注重成本的商业用户。支持文本、图像、音频、视频等多模态输入ideo,具有高达 100 万个 token 的上下文窗口和 64,000 个 token 的输出限制,可以满足从文档摘要到复杂的多模式任务的广泛需求。性能标杆:超越同级,挑战上一代旗舰。在关键性能指标方面,谷歌援引Artificial Analysis基准数据称,3.1 Flash-Lite的首次响应时间比Gemini 2.5 Flash快2.5倍,输出速度提高45%。在智能功能评测方面,该机型在 Arena.ai 排名中获得了 1432 分的 Elo 分数,在 GPQA Diamond 测试中获得了 86.9% 的成绩,在 MMMU Pro 测试中获得了 86.9% 的成绩。它在测试中得分为 76.8%,谷歌表示这两项结果都优于同级别的竞争模型。值得注意的是,谷歌特别强调,3.1 Flash-Lite 在多项基准测试中甚至优于上一代 Gemini 2.5 Flash。这意味着在某些工作负载下,使用rs无需付出旗舰机型的价格就能获得更好的性能。主要特点:可调节的“思想水平” 除了速度和成本之外,3.1 Flash-Lite 的一个与众不同的特点是 AI Studio 和 Vertex AI 中内置的“思想水平”控制,它使开发人员能够根据任务的复杂性灵活地调整模型推理的深度。谷歌在其官方博客上写道,该功能“对于管理高频工作负载至关重要”。在成本优先考虑的批量情况下,例如翻译或内容审核,开发人员可以选择较低层次的思维来降低成本。生成用户界面、创建模拟场景、遵循复杂的指令等等。对于需要详细推理的任务,可以提高思维水平,提高结果质量。在架构层面,Google DeepMind 透露 3.1 Flash-Lite 是基于 Gemini 3 Pro 的,训练是使用 Google 的内部开发的张量处理单元 (TPU) 以及 JAX 和 ML Pathways 软件框架。公司评论: 效率和遵循订单的能力受到高度重视。许多早期测试公司都对3.1 Flash-Lite提供了积极的反馈,主要集中在三个方面:速度、命令跟踪能力和大规模处理能力。人工智能故事平台 Latitude 的人工智能负责人 Colby Nottingham 表示:“与我们之前使用的模型相比,谷歌的模型器成功率提高了 20%,推理速度提高了 60%,展示了同类产品中无与伦比的跟踪和速度。” “这使得 Latitude 能够向更广泛的受众提供复杂的叙事体验。” AI 动画工具 Cartwheel Carr 的首席科学家 Andrew 称该模型“在智能和速度方面无与伦比”,并补充道,“它非常适合调用工具,使您能够在大型模型所需时间的一小部分内快速探索代码库。我们有多个 multimod 用例所有注释,对于大型应用程序,我们使用 Flash-Lite。它是解锁更多数据、获得更多洞察的重要工具。”时尚应用 Whering 首席执行官 Bianca Rangecroft 表示,相信通过在分拣过程中结合 3.1 Flash-Lite,Whering 可以在产品标签上实现“100% 一致性”,即使对于复杂的时尚品类也能提供“稳健、可重复的结果”。企业 AI 平台 HubXcomo 联合创始人 Kaan Ortab 提供了以下具体数据:“作为内容和路线编排引擎, Gemini 3.1 Flash-Lite 始终如一地实现低于 10 秒的完成时间、接近实时的流输出、约 97% 的结构化输出合规性和 94% 的意图路由准确性,在速度、命令准确性和成本效率之间提供了出色的平衡。”
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供存储信息服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

此条目发表在每日更新分类目录,贴了标签。将固定链接加入收藏夹。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注