北京时间5月20日凌晨,谷歌I/O 2026大会正式开幕。这场年度科技盛会带来了重磅发布:Gemini 3.5 Flash正式亮相,其输出速度达到289 token/s,是GPT-5.5和Claude Opus 4.7的4倍,成为当前全球最快的商用大模型。
作为谷歌今年的核心产品,Gemini 3.5 Flash主打”极速”与”高性价比”。根据官方数据,该模型在几乎所有基准测试上都超越了三个月前的旗舰Gemini 3.1 Pro,而成本却大幅降低。更值得关注的是,谷歌宣布Gemini 3.5 Flash将免费向全球用户开放,这意味着普通用户也能体验到顶级AI的极速响应能力。

除了速度优势,Gemini 3.5 Flash在MCP Atlas测试中拿下83.6%的准确率,位列全场最高。配合Gemini App月活超9亿的庞大用户基数,谷歌正在构建一个以速度为核心竞争力的AI生态系统。
速度革命:289 token/s意味着什么
传统大模型的响应延迟一直是用户体验的痛点。以GPT-5.5为例,其输出速度约为70-80 token/s,在生成长文本时用户往往需要等待数秒。而Gemini 3.5 Flash将这一时间缩短至原来的四分之一,用户几乎感受不到延迟,如同与真人对话般流畅。

免费策略:重新定义AI普惠
Gemini 3.5 Flash的免费开放策略颇具战略眼光。在Claude月活环比增长130%、ChatGPT持续领跑的竞争格局下,谷歌选择用”免费+极速”组合拳吸引用户,这既是对市场压力的回应,也是对AI普惠理念的践行。
对国内用户而言,虽然Gemini服务在国内的可用性受限,但这场发布传递的信号值得关注:AI大模型正在从”参数竞赛”转向”体验竞赛”,速度、成本、用户体验正成为新的竞争焦点。国产大模型如DeepSeek、智谱等也在推理速度上持续发力,这场速度革命才刚刚开始。








