Google 推出更快、更具成本效益的 Gemini 3 型号，响应时间加快 2.5 倍，输出速度加快 45%

美国东部时间 3 月 3 日星期二，谷歌推出了 Gemini 3.1 Flash-Lite，这是 Gemini 3 系列中速度最快、性价比最高的型号。它专为高频、大规模开发人员工作负载而设计，以低廉的价格提供无与伦比的智能性能。 Gemini 3.1 Flash-Lite 从今天开始向开发者提供预览版，可通过 Google AI Studio 中的 Gemini API 访问，企业用户可通过 Google Cloud Vertex AI 平台使用。使用该模型不需要特定的硬件或软件配置，用户可以通过 API 调用来访问它。谷歌透露，根据人工分析基准测试，与 Gemini 2.5 Flash 相比，3.1 Flash-Lite 的首次响应时间提高了 2.5 倍，输出速度提高了 45%，同时保持相似或更好的质量水平。谷歌表示，该模型在 Arena.ai 排名中获得了 1.432 的 Elo 分数，在多推理和多模态理解基准测试中优于同级别的其他模型rks，甚至超过了上一代最大的 Gemini 模型。 Latitude、Cartwheel 和Whereing 等公司目前正在早期试验中使用该模型，并报告了显着的效率和成本效益。定位与价格：高频场景下第一个盈利选择。 Google DeepMind 在其模型描述文件中将 3.1 Flash-Lite 定位为“经济高效、快速且针对高频、延迟敏感任务（例如翻译和内容分类）进行优化”的模型。这是 Gemini 3 系列原生多模态推理模型家族的新成员。在定价方面，3.1 Flash-Lite 的成本为每百万个输入代币 0.25 美元，每百万个输出代币 1.50 美元。谷歌在其官方博客上并指出其价格是u它是较大模型的一小部分，适合需要大规模部署的开发人员和注重成本的商业用户。支持文本、图像、音频、视频等多模态输入ideo，具有高达 100 万个 token 的上下文窗口和 64,000 个 token 的输出限制，可以满足从文档摘要到复杂的多模式任务的广泛需求。性能标杆：超越同级，挑战上一代旗舰。在关键性能指标方面，谷歌援引Artificial Analysis基准数据称，3.1 Flash-Lite的首次响应时间比Gemini 2.5 Flash快2.5倍，输出速度提高45%。在智能功能评测方面，该机型在 Arena.ai 排名中获得了 1432 分的 Elo 分数，在 GPQA Diamond 测试中获得了 86.9% 的成绩，在 MMMU Pro 测试中获得了 86.9% 的成绩。它在测试中得分为 76.8%，谷歌表示这两项结果都优于同级别的竞争模型。值得注意的是，谷歌特别强调，3.1 Flash-Lite 在多项基准测试中甚至优于上一代 Gemini 2.5 Flash。这意味着在某些工作负载下，使用rs无需付出旗舰机型的价格就能获得更好的性能。主要特点：可调节的“思想水平” 除了速度和成本之外，3.1 Flash-Lite 的一个与众不同的特点是 AI Studio 和 Vertex AI 中内置的“思想水平”控制，它使开发人员能够根据任务的复杂性灵活地调整模型推理的深度。谷歌在其官方博客上写道，该功能“对于管理高频工作负载至关重要”。在成本优先考虑的批量情况下，例如翻译或内容审核，开发人员可以选择较低层次的思维来降低成本。生成用户界面、创建模拟场景、遵循复杂的指令等等。对于需要详细推理的任务，可以提高思维水平，提高结果质量。在架构层面，Google DeepMind 透露 3.1 Flash-Lite 是基于 Gemini 3 Pro 的，训练是使用 Google 的内部开发的张量处理单元 (TPU) 以及 JAX 和 ML Pathways 软件框架。公司评论：效率和遵循订单的能力受到高度重视。许多早期测试公司都对3.1 Flash-Lite提供了积极的反馈，主要集中在三个方面：速度、命令跟踪能力和大规模处理能力。人工智能故事平台 Latitude 的人工智能负责人 Colby Nottingham 表示：“与我们之前使用的模型相比，谷歌的模型器成功率提高了 20%，推理速度提高了 60%，展示了同类产品中无与伦比的跟踪和速度。” “这使得 Latitude 能够向更广泛的受众提供复杂的叙事体验。” AI 动画工具 Cartwheel Carr 的首席科学家 Andrew 称该模型“在智能和速度方面无与伦比”，并补充道，“它非常适合调用工具，使您能够在大型模型所需时间的一小部分内快速探索代码库。我们有多个 multimod 用例所有注释，对于大型应用程序，我们使用 Flash-Lite。它是解锁更多数据、获得更多洞察的重要工具。”时尚应用 Whering 首席执行官 Bianca Rangecroft 表示，相信通过在分拣过程中结合 3.1 Flash-Lite，Whering 可以在产品标签上实现“100% 一致性”，即使对于复杂的时尚品类也能提供“稳健、可重复的结果”。企业 AI 平台 HubXcomo 联合创始人 Kaan Ortab 提供了以下具体数据：“作为内容和路线编排引擎， Gemini 3.1 Flash-Lite 始终如一地实现低于 10 秒的完成时间、接近实时的流输出、约 97% 的结构化输出合规性和 94% 的意图路由准确性，在速度、命令准确性和成本效率之间提供了出色的平衡。”
特别提示：以上内容（包括图片、视频，如有）由自有媒体平台“网易账号”用户上传发布。本平台仅提供存储信息服务。
注：以上内容（包括图片和视频，如有）由网易号用户上传发布，网易号是一个仅提供信息存储服务的社交媒体平台。

Google 推出更快、更具成本效益的 Gemini 3 型号，响应时间加快 2.5 倍，输出速度加快 45%

发表回复取消回复

近期文章

近期评论

归档

分类

Google 推出更快、更具成本效益的 Gemini 3 型号，响应时间加快 2.5 倍，输出速度加快 45%

发表回复 取消回复

近期文章

近期评论

发表回复取消回复