火星财经消息,3 月 4 日,谷歌发布 Gemini 3.1 Flash-Lite 预览版,定位为 Gemini 3 系列中速度最快、成本最低的模型。该模型基于 Gemini 3 Pro 架构,采用混合专家(MoE)设计,仅激活部分参数以降低推理成本。API 定价为输入 $0.25/百万 token、输出 $1.50/百万 token,分别为 Gemini 3.1 Pro($2/$18)的约 1/8。 性能方面,相比 Gemini 2.5 Flash,首个 token 延迟缩短 2.5 倍,输出速度提升 45%,达到每秒 363 token。支持最大 100 万 token 输入和 6.4 万 token 输出,接受文本、图片、音频和视频输入。在 11 项内部基准测试中,Flash-Lite 在 6 项上超过 GPT-5 mini 和 Claude 4.5 Haiku,GPQA Diamond(博士级科学问答)达 86.9%,MMMU-Pro(多模态推理)76.8%,LiveCodeBench(代码生成)72.0%。 该模型内置可调「思考级别」(thinking levels),开发者可在 AI Studio 和 Vertex AI 中控制模型推理深度,在高频场景中平衡质量与成本。目前通过 Gemini API(Google AI Studio)和 Vertex AI 提供预览版访问。
发表评论 取消回复