谷歌AI战略:多模态领先,编程能力待提升
谷歌的AI之路:领先与追赶并存
在刚刚落幕的谷歌I/O大会之后,谷歌首席执行官Sundar Pichai接受了知名科技播客《Hard Fork》的深度访谈。这场对话不仅揭示了谷歌在人工智能竞赛中的真实站位,也勾勒出其未来战略的核心方向。从多模态能力的领先,到代理式编程的暂时落后,再到智能体产品的渐进式布局,Pichai坦诚而清晰地展现了谷歌在AI浪潮中的清醒认知与务实路径。
多模态领先,编程能力仍需追赶
尽管外界常将谷歌视为AI领域的追赶者,Pichai却指出,谷歌在大模型的整体智能层面——包括文本理解、多模态输入(图像、语音、视频)、音频处理以及通用推理能力——已处于行业前沿。尤其在多模态交互方面,谷歌凭借其长期积累的跨模态对齐技术,实现了对复杂信息的综合理解与响应,这在Gemini系列模型中已有充分体现。
然而,Pichai并未回避短板。他坦承,在“代理式编程”(agentic coding)和长周期任务处理方面,谷歌目前落后于行业领先水平。所谓代理式编程,指的是AI不仅能生成代码,还能自主调用工具、调试、迭代,并在复杂代码库中执行多步骤任务。这类能力对开发者至关重要,而谷歌在这一领域仍需迎头赶上。
更值得关注的是,新发布的Gemini 3.5 Flash模型出现了性能退化与“伪影”问题——即输出中出现不连贯或逻辑错误的内容。Pichai将此归因于新模型探索中的常见挑战,并强调团队正通过后训练(post-training)进行快速修复。这一回应既体现了技术迭代的现实复杂性,也传递出谷歌对质量把控的紧迫感。
搜索不会“全AI化”,链接仍是基石
面对AI对传统搜索模式的冲击,Pichai明确表示,谷歌不会激进地将搜索切换至“全AI模式”。他强调,用户仍依赖“搜索节点”快速建立信息连接,而来源链接作为信息可信度的锚点,将长期存在。这意味着,即使AI生成内容日益普及,谷歌仍坚持“信息可溯源”的核心原则。
在商业模式上,Pichai认为,AI将为用户创造比以往更多的总价值,而经济回报仍取决于技术提供的实际价值量。因此,谷歌将继续采用“订阅+广告”的双轨模式。这一判断揭示了AI时代商业逻辑的延续性:技术变革可能重塑产品形态,但价值创造与用户付费意愿之间的关联依然稳固。
智能体Spark:渐进推广,安全先行
今年夏天即将发布的智能体产品Spark,成为访谈中的亮点。据Pichai描述,Spark已能自主读取日历、按类别自动标记会议类型,并优化时间管理。这一能力标志着AI从“被动响应”向“主动代理”的跨越。
但Pichai强调,推广智能体的关键在于“渐进式策略”。用户需要绝对的掌控感和系统透明度,任何意料之外的行为都可能导致信任崩塌。此外,智能体系统面临被黑客攻击的风险,例如诱导其执行越权操作或泄露隐私数据。因此,谷歌必须在技术推进中严守安全边界,确保系统不会“越界”。
这种谨慎态度,反映出谷歌对AI代理社会影响的深刻认知。智能体不仅是工具,更是可能介入用户日常决策的“数字伙伴”,其安全性与可控性远比功能炫酷更为重要。
开放TPU算力,反哺硬件创新
为满足模型训练的巨大算力需求,谷歌在自研芯片TPU的部署上采取了开放策略:不仅服务内部模型,也向竞争对手和外部公司提供算力访问权限。Pichai解释,这一举措有助于谷歌保持在硬件前沿,推动下一代芯片的研发,并通过规模经济降低制造成本。
这一战略颇具远见。外部需求不仅带来收入,更形成技术反馈闭环——更多用户意味着更多压力测试场景,从而加速硬件优化。若仅依赖内部使用,TPU的迭代速度与产量规划将难以维持当前水平。
AGI临近?技术演进已超预期
尽管Pichai未给出AGI(通用人工智能)实现的具体时间表,但他承认,过去一两年的技术演进速度已远超预期。这意味着,即使AGI尚未到来,三年后的AI能力也将远超今日。他提醒公众:不能因“尚需时日”而放松准备,社会必须提前内化AI带来的变革,从教育、伦理到政策层面全面应对。
这场访谈,不仅是一次技术复盘,更是一次战略宣言。谷歌正以“领先与追赶并存”的姿态,在多模态、搜索、智能体与硬件四大战场稳步推进。其核心逻辑清晰:技术必须服务于用户价值,创新必须兼顾安全与信任。在AI的深水区,走得稳,或许比跑得快更重要。
标签: 人工智能 谷歌AI Gemini 智能体 AGI