Google IO 2026:八大信号看懂谷歌的Agent野心 | WaveGlocal在现场

摘要

【摘要】 AI不再以“功能”为单位出现在产品里,而是以“智能体”的形式,被塞进了谷歌的每一条“管道”。


北京时间5月20日凌晨,Google I/O 2026在海岸线剧场落下帷幕。作为受邀到场的中国媒体,我们在前排目睹了一场将近三小时的发布。


一个直观感受是:AI不再以“功能”为单位出现在产品里,而是以“智能体”的形式,被塞进了谷歌的每一条“管道”。



散场时我们和几位美国同行交流,大家最直接的体感是信息密度很大,从模型到硬件,从搜索到广告,从操作系统到开发者工具,谷歌这次的亮牌找回了主场,Claude code、ChatGPT的竞争将会更加激烈。


谷歌CEO桑达尔·皮查伊在开场演讲中给出了几个关键数据:谷歌每月处理Token数达3.2千万亿,同比增长7倍;Gemini应用月活用户突破9亿。庞大的数字支撑了Google接下来想做的事情,那就是把Agent普惠化,让更泛泛的用户也可以用上。


以下是我们从现场带回的八大重要信息点及分析:


01
Gemini 3.5 Flash:不做最强,
但做最快的默认入口

本届I/O最核心的技术发布是Gemini 3.5 Flash。谷歌没有选择在绝对智力指标上和Anthropic、OpenAI贴身肉搏,而是把重点放在了速度和成本上。



Gemini 3.5 Flash在输出速度上比Claude Opus 4.7和GPT-5.5快4倍,达到每秒289 tokens。价格方面,皮查伊称其成本仅为同类顶尖模型的一半甚至三分之一。更重要的是,该模型今天即刻成为Gemini App和搜索AI模式的全球默认模型。不过更强大的Gemini 3.5 Pro目前仅限内部使用,下月才会开放。


02
Gemini Omni:
视频生成进入“全模态”时代

现场DeepMind CEO哈萨比斯登台发布了Gemini Omni,一个用于模拟物理环境的世界模型。就这个模型Google先推出的是视频输出能力,图片和文本将在未来拓展。



与市面上多数仅支持文生视频的模型不同,Omni可以同时处理文本、图片、音频、视频等多种输入来源,并支持对话式编辑,用户一句话即可修改视频中的角色、背景或场景元素。Omni还具备更准确的物理模拟能力,能理解重力、流体动力学等概念。


在OpenAI放弃Sora的背景下,谷歌对视频生成领域的持续加注,这一点很有意思,某程度也在说明更吃算力的AI视频领域,拥有“生态能力”可能会跑得更快


03
Gemini Spark:
24小时不关机的AI智能体

本届大会最富想象力的发布,当属Gemini Spark个人AI智能体,谷歌版的“龙虾”终于也上线了。



Spark运行在Google Cloud的专属虚拟机上,7×24小时在线,可以在用户合上电脑后继续执行任务。它由Gemini 3.5系列模型和Antigravity框架驱动,通过MCP协议连接第三方工具,能跨应用执行邮件整理、活动筹备等长链路工作。


今年夏季,Spark将直接内置于Chrome浏览器,作为智能浏览器助手协助用户处理全网事务。随后于今年晚些时候,Android设备用户还可通过全新的UI交互空间Android Halo,实时查看 Spark等智能体的任务进度与动态更新。下周起,Spark将率先向美国AI Ultra订阅用户开放Beta测试。


04
Search AI Mode:
Google 正在重写“搜索”

此次大会,搜索也迎来了一次大的进化。核心仍然是,搜索正在从“信息检索工具”进化为“生成式任务执行平台”



现场演示,你可以在搜索中创建多个Agent,7x24小时在后台监控特定条件,Agent自行检索、实时推送变动。搜索第一次具备了异步执行与主动通知的能力,不再需要用户反复刷新页面。


针对需要反复跟进的长期任务,Google搜索支持构建持久的自定义仪表板或进度追踪器,方便用户随时返回查看并推进进度。用户可将其视为个人专属的“迷你应用”。未来几个月,用户将能直接在搜索中利用Antigravity构建此类体验,该功能将率先面向美国的Google AI Pro和Ultra订阅用户开放。


AI Overviews与AI Mode的合并带来的改变是从传统搜索结果页可以无缝过渡到对话式追问,上下文全程跟随。这一设计的本质是打破了“搜索即单次查询”的旧范式,让用户与引擎之间建立起可持续的协作关系。


此外,Google还重新设计了搜索框。以前只能打字,现在可以直接丢图片、文件、视频,系统会跨模态统一理解,并用AI帮你补全问题、梳理真正的意图。这意味着输入门槛被彻底移除,用户的“模糊需求”也能被精准捕捉


谷歌正在把搜索从“链接的列表”变成生成式UI的运行时。当搜索可以主动代理任务、动态构建交互界面,它就不再只是找到信息,而是直接交付结果。这或许会彻底改写搜索引擎的商业模式和用户预期。



05
Agent电商:AI购物开始闭环

对WaveGlocal的读者而言,这是本届大会非常重要的信号之一。本届IO最被低估但可能最具长期价值的发布,是一套让AI智能体完成“购物-支付-管理”闭环的基础协议


首先是Universal Commerce Protocol(UCP),一份面向Agent购物的开源通用协议,定位“Agent电商时代的HTTP”。此前已拉拢Shopify、沃尔玛等五家创始伙伴,本次IO宣布Amazon、Meta、Microsoft、Salesforce、Stripe正式加入技术委员会。


其次是Agent Payments Protocol(AP2),解决Agent乱花钱的信任问题。用户可设三道护栏——品牌、商品、金额上限,三条件全满足才可下单。每笔交易附带防篡改数字授权书,可追溯。


最后是全新发布的Universal Cart——一个跨商家、跨服务的智能购物车。在搜索、Gemini聊天、YouTube、Gmail中看到的东西均可加入,购物车自动后台找折扣、查价格历史、校验收件兼容性。现场演示中,购物车发现用户已购CPU与新加购主板不兼容,主动提醒更换。今年夏天美国上线。


整个逻辑是Google试图让AI不仅仅是推荐者或搜索助手,而是真正成为“执行者”:从发现商品到支付结算,再到订单管理,全程可由智能体完成。


为了实现这一目标,Google正在推动一套开放协议和可验证机制,让Agent能在复杂的购物场景中可靠操作。它需要解决两个问题:一是跨商家操作的互通性,二是用户对自动支付行为的控制感。


这种基础设施的建设对整个零售与电商产业意味着长期重构。首先,商家不再单纯依赖网站或 APP 的流量,而是需要成为AI购物生态可解析的“语义资产”。被AI识别、信任和推荐,才是未来流量的入口。其次,品牌与支付体系的安全规则被硬编码进协议中,这不仅防止乱扣款,还将交易数据的可信性上链,可追溯、可验证,进一步降低用户和平台之间的不信任成本。对于金融科技和支付机构而言,这是一种新的服务窗口,同时也是未来信用体系的新基石。


更深层次的影响在于购物体验本身的重构。Universal Cart的出现,将不同平台、不同服务甚至不同商家的商品统一到一个智能购物车中,AI可以主动处理兼容性、价格优化、历史购买记录和折扣逻辑。用户不再需要自己判断商品组合、比较价格、挑选优惠,AI将成为购物路径的主导者。


品牌不仅要让消费者喜欢产品,更要让 AI “理解”你的商品价值,否则即便在搜索或内容中被看到,也可能被智能体忽略或替换。流量、内容、支付、物流,不再是孤立模块,而是一个智能体可操作的整体生态。


06
Ask YouTube与Docs Live:
AI改造升级

谷歌核心产品线的AI改造也展现出了前所未有的力度,我们将目光聚焦于YouTube和Docs Live。


此次大会,YouTube推出“Ask YouTube”功能,用户可通过自然语言与视频内容对话,AI直接定位视频中相关片段并跳转。Docs Live则支持全程语音创建和编辑文档,Gemini自动提取演讲要点,从Google Drive调取简历、从Gmail获取活动详情。


加上此前Google Maps新增的Ask Maps功能——支持用户用长段自然语言向地图提问,谷歌正在把对话式AI植入每一个用户高频使用的产品场景中。


07
AI改造升级AI订阅全面降价:
从“技术秀”到“规模战”


商业化层面,谷歌打出价格牌。Gemini AI Ultra订阅从250美元/月降至200美元/月,Pro维持在19.99 美元/月,同时新增100美元/月的入门级Ultra档位,填补消费级和专业级之间的空白


这一策略在WaveGlocal看来是直接对标Anthropic的定价路线。


皮查伊明确表示,谷歌的低价模型将以更低成本提供大部分高端能力。在资本支出预计达1800亿-1900亿美元的背景板下,谷歌需要通过规模化变现来支撑AI基础设施的持续投入。


降价抢用户规模,是这场博弈中必要的一步,也是很多平台在走的一步。


08
AI眼镜:智能眼镜的第二次冲锋

硬件层面谷歌还带来了与三星、Gentle Monster及Warby Parker合作打造的音频AI眼镜预览。虽名为“音频眼镜”,但并非纯音频设备——它搭载摄像头,具备AI视觉和多模态输入能力。由于产品预计2026年秋季发布,会上仅展示了外观和大致功能,未公布重量、续航等细节。



核心体验在于与Spark智能体的联动:用户通过语音或镜腿触控唤醒Gemini,指令在眼镜端完成采集,实际任务的拆解与执行则交给手机端Spark在后台完成。现场演示中,用户说一句“买一杯上次点的咖啡”,Spark即可自动打开App、加购商品,经声纹确认后完成下单。这套“眼镜收音,Agent干活”的交互逻辑,让音频眼镜从“可穿戴耳机”进化为一个更轻量的AI入口。


继Google Glass折戟之后,这是谷歌在智能眼镜赛道上的又一次系统布局,赌的是Gemini多模态能力能成为真正的使用驱动力。


09
结语

把视线从海岸线剧场拉远一点,今年的IO发生在AI大模型厮杀最激烈的时间节点上。Claude、GPT、Gemini各有路线:OpenAI砍掉Sora后All-in Agent能力,步伐明显加快;马斯克解散XAI、把算力租给Anthropic,相当于给Claude阵营注入了一波弹药。这是硅谷技术老派与新派的全面对撞。


短期内未必会出现一家独大的终局,三强齐头并进、共同推高顶级模型的上限,反而是更大概率的事。杰弗里·辛顿押注谷歌赢,但眼下结论并不重要。重要的是,谷歌手里有一张别人没有的牌——生态。


搜索、浏览器、操作系统、邮箱、地图、广告、电商协议,当这些入口被逐一接入Agent能力,谷歌在构建的不是一个更强的模型,而是一张让Agent真正跑起来的完整网络。


智能体不再只是产品功能,而是正在成为新的基础设施;AI不再只是信息工具,而是下一代操作层。


AI进入“主动执行”阶段意味着流量入口、用户决策路径和广告投放逻辑都将面临深层重构。而当谷歌把智能体塞进搜索、浏览器和广告系统的同一时刻,我们需要重新思考的,是怎么在一个人与智能体并存的时代里,找到新的连接方式。


Morketing原创发布,未经授权请勿转载

收藏 收藏 0
热点

Google IO 2026:八大信号看懂谷歌的Agent野心 | WaveGlocal在现场

评论 · 0

请先后参与评论