Google IO 2026：八大信号看懂谷歌的Agent野心 | WaveGlocal在现场

作者: Wangchutian 时间: 2026-05-21 11:48

【摘要】 AI不再以“功能”为单位出现在产品里，而是以“智能体”的形式，被塞进了谷歌的每一条“管道”。

北京时间5月20日凌晨，Google I/O 2026在海岸线剧场落下帷幕。作为受邀到场的中国媒体，我们在前排目睹了一场将近三小时的发布。

一个直观感受是：AI不再以“功能”为单位出现在产品里，而是以“智能体”的形式，被塞进了谷歌的每一条“管道”。

散场时我们和几位美国同行交流，大家最直接的体感是信息密度很大，从模型到硬件，从搜索到广告，从操作系统到开发者工具，谷歌这次的亮牌找回了主场，Claude code、ChatGPT的竞争将会更加激烈。

谷歌CEO桑达尔·皮查伊在开场演讲中给出了几个关键数据：谷歌每月处理Token数达3.2千万亿，同比增长7倍；Gemini应用月活用户突破9亿。庞大的数字支撑了Google接下来想做的事情，那就是把Agent普惠化，让更泛泛的用户也可以用上。

以下是我们从现场带回的八大重要信息点及分析：

01
Gemini 3.5 Flash：不做最强，

但做最快的默认入口

本届I/O最核心的技术发布是Gemini 3.5 Flash。谷歌没有选择在绝对智力指标上和Anthropic、OpenAI贴身肉搏，而是把重点放在了速度和成本上。

Gemini 3.5 Flash在输出速度上比Claude Opus 4.7和GPT-5.5快4倍，达到每秒289 tokens。价格方面，皮查伊称其成本仅为同类顶尖模型的一半甚至三分之一。更重要的是，该模型今天即刻成为Gemini App和搜索AI模式的全球默认模型。不过更强大的Gemini 3.5 Pro目前仅限内部使用，下月才会开放。

02
Gemini Omni：

视频生成进入“全模态”时代

现场DeepMind CEO哈萨比斯登台发布了Gemini Omni，一个用于模拟物理环境的世界模型。就这个模型Google先推出的是视频输出能力，图片和文本将在未来拓展。

与市面上多数仅支持文生视频的模型不同，Omni可以同时处理文本、图片、音频、视频等多种输入来源，并支持对话式编辑，用户一句话即可修改视频中的角色、背景或场景元素。Omni还具备更准确的物理模拟能力，能理解重力、流体动力学等概念。

在OpenAI放弃Sora的背景下，谷歌对视频生成领域的持续加注，这一点很有意思，某程度也在说明更吃算力的AI视频领域，拥有“生态能力”可能会跑得更快。

03
Gemini Spark：

24小时不关机的AI智能体

本届大会最富想象力的发布，当属Gemini Spark个人AI智能体，谷歌版的“龙虾”终于也上线了。

Spark运行在Google Cloud的专属虚拟机上，7×24小时在线，可以在用户合上电脑后继续执行任务。它由Gemini 3.5系列模型和Antigravity框架驱动，通过MCP协议连接第三方工具，能跨应用执行邮件整理、活动筹备等长链路工作。

今年夏季，Spark将直接内置于Chrome浏览器，作为智能浏览器助手协助用户处理全网事务。随后于今年晚些时候，Android设备用户还可通过全新的UI交互空间Android Halo，实时查看 Spark等智能体的任务进度与动态更新。下周起，Spark将率先向美国AI Ultra订阅用户开放Beta测试。

Search AI Mode：

Google 正在重写“搜索”

此次大会，搜索也迎来了一次大的进化。核心仍然是，搜索正在从“信息检索工具”进化为“生成式任务执行平台”。

现场演示，你可以在搜索中创建多个Agent，7x24小时在后台监控特定条件，Agent自行检索、实时推送变动。搜索第一次具备了异步执行与主动通知的能力，不再需要用户反复刷新页面。

针对需要反复跟进的长期任务，Google搜索支持构建持久的自定义仪表板或进度追踪器，方便用户随时返回查看并推进进度。用户可将其视为个人专属的“迷你应用”。未来几个月，用户将能直接在搜索中利用Antigravity构建此类体验，该功能将率先面向美国的Google AI Pro和Ultra订阅用户开放。

AI Overviews与AI Mode的合并带来的改变是从传统搜索结果页可以无缝过渡到对话式追问，上下文全程跟随。这一设计的本质是打破了“搜索即单次查询”的旧范式，让用户与引擎之间建立起可持续的协作关系。

此外，Google还重新设计了搜索框。以前只能打字，现在可以直接丢图片、文件、视频，系统会跨模态统一理解，并用AI帮你补全问题、梳理真正的意图。这意味着输入门槛被彻底移除，用户的“模糊需求”也能被精准捕捉。

谷歌正在把搜索从“链接的列表”变成生成式UI的运行时。当搜索可以主动代理任务、动态构建交互界面，它就不再只是找到信息，而是直接交付结果。这或许会彻底改写搜索引擎的商业模式和用户预期。

05
Agent电商：AI购物开始闭环

对WaveGlocal的读者而言，这是本届大会非常重要的信号之一。本届IO最被低估但可能最具长期价值的发布，是一套让AI智能体完成“购物-支付-管理”闭环的基础协议。

首先是Universal Commerce Protocol（UCP），一份面向Agent购物的开源通用协议，定位“Agent电商时代的HTTP”。此前已拉拢Shopify、沃尔玛等五家创始伙伴，本次IO宣布Amazon、Meta、Microsoft、Salesforce、Stripe正式加入技术委员会。

其次是Agent Payments Protocol（AP2），解决Agent乱花钱的信任问题。用户可设三道护栏——品牌、商品、金额上限，三条件全满足才可下单。每笔交易附带防篡改数字授权书，可追溯。

最后是全新发布的Universal Cart——一个跨商家、跨服务的智能购物车。在搜索、Gemini聊天、YouTube、Gmail中看到的东西均可加入，购物车自动后台找折扣、查价格历史、校验收件兼容性。现场演示中，购物车发现用户已购CPU与新加购主板不兼容，主动提醒更换。今年夏天美国上线。

整个逻辑是Google试图让AI不仅仅是推荐者或搜索助手，而是真正成为“执行者”：从发现商品到支付结算，再到订单管理，全程可由智能体完成。

为了实现这一目标，Google正在推动一套开放协议和可验证机制，让Agent能在复杂的购物场景中可靠操作。它需要解决两个问题：一是跨商家操作的互通性，二是用户对自动支付行为的控制感。

这种基础设施的建设对整个零售与电商产业意味着长期重构。首先，商家不再单纯依赖网站或 APP 的流量，而是需要成为AI购物生态可解析的“语义资产”。被AI识别、信任和推荐，才是未来流量的入口。其次，品牌与支付体系的安全规则被硬编码进协议中，这不仅防止乱扣款，还将交易数据的可信性上链，可追溯、可验证，进一步降低用户和平台之间的不信任成本。对于金融科技和支付机构而言，这是一种新的服务窗口，同时也是未来信用体系的新基石。

更深层次的影响在于购物体验本身的重构。Universal Cart的出现，将不同平台、不同服务甚至不同商家的商品统一到一个智能购物车中，AI可以主动处理兼容性、价格优化、历史购买记录和折扣逻辑。用户不再需要自己判断商品组合、比较价格、挑选优惠，AI将成为购物路径的主导者。

品牌不仅要让消费者喜欢产品，更要让 AI “理解”你的商品价值，否则即便在搜索或内容中被看到，也可能被智能体忽略或替换。流量、内容、支付、物流，不再是孤立模块，而是一个智能体可操作的整体生态。

06
Ask YouTube与Docs Live：

AI改造升级

谷歌核心产品线的AI改造也展现出了前所未有的力度，我们将目光聚焦于YouTube和Docs Live。

此次大会，YouTube推出“Ask YouTube”功能，用户可通过自然语言与视频内容对话，AI直接定位视频中相关片段并跳转。Docs Live则支持全程语音创建和编辑文档，Gemini自动提取演讲要点，从Google Drive调取简历、从Gmail获取活动详情。

加上此前Google Maps新增的Ask Maps功能——支持用户用长段自然语言向地图提问，谷歌正在把对话式AI植入每一个用户高频使用的产品场景中。

AI改造升级AI订阅全面降价：

从“技术秀”到“规模战”

商业化层面，谷歌打出价格牌。Gemini AI Ultra订阅从250美元/月降至200美元/月，Pro维持在19.99 美元/月，同时新增100美元/月的入门级Ultra档位，填补消费级和专业级之间的空白。

这一策略在WaveGlocal看来是直接对标Anthropic的定价路线。

皮查伊明确表示，谷歌的低价模型将以更低成本提供大部分高端能力。在资本支出预计达1800亿-1900亿美元的背景板下，谷歌需要通过规模化变现来支撑AI基础设施的持续投入。

降价抢用户规模，是这场博弈中必要的一步，也是很多平台在走的一步。

08
AI眼镜：智能眼镜的第二次冲锋

硬件层面谷歌还带来了与三星、Gentle Monster及Warby Parker合作打造的音频AI眼镜预览。虽名为“音频眼镜”，但并非纯音频设备——它搭载摄像头，具备AI视觉和多模态输入能力。由于产品预计2026年秋季发布，会上仅展示了外观和大致功能，未公布重量、续航等细节。

核心体验在于与Spark智能体的联动：用户通过语音或镜腿触控唤醒Gemini，指令在眼镜端完成采集，实际任务的拆解与执行则交给手机端Spark在后台完成。现场演示中，用户说一句“买一杯上次点的咖啡”，Spark即可自动打开App、加购商品，经声纹确认后完成下单。这套“眼镜收音，Agent干活”的交互逻辑，让音频眼镜从“可穿戴耳机”进化为一个更轻量的AI入口。

继Google Glass折戟之后，这是谷歌在智能眼镜赛道上的又一次系统布局，赌的是Gemini多模态能力能成为真正的使用驱动力。

结语

把视线从海岸线剧场拉远一点，今年的IO发生在AI大模型厮杀最激烈的时间节点上。Claude、GPT、Gemini各有路线：OpenAI砍掉Sora后All-in Agent能力，步伐明显加快；马斯克解散XAI、把算力租给Anthropic，相当于给Claude阵营注入了一波弹药。这是硅谷技术老派与新派的全面对撞。

短期内未必会出现一家独大的终局，三强齐头并进、共同推高顶级模型的上限，反而是更大概率的事。杰弗里·辛顿押注谷歌赢，但眼下结论并不重要。重要的是，谷歌手里有一张别人没有的牌——生态。

搜索、浏览器、操作系统、邮箱、地图、广告、电商协议，当这些入口被逐一接入Agent能力，谷歌在构建的不是一个更强的模型，而是一张让Agent真正跑起来的完整网络。

智能体不再只是产品功能，而是正在成为新的基础设施；AI不再只是信息工具，而是下一代操作层。

AI进入“主动执行”阶段意味着流量入口、用户决策路径和广告投放逻辑都将面临深层重构。而当谷歌把智能体塞进搜索、浏览器和广告系统的同一时刻，我们需要重新思考的，是怎么在一个人与智能体并存的时代里，找到新的连接方式。

Morketing原创发布，未经授权请勿转载

Google IO

热点

Google IO 2026：八大信号看懂谷歌的Agent野心 | WaveGlocal在现场