谷歌I/O大会：Gemini 3.5发布，AI接管搜索和眼镜

admin AI新闻 2026-06-08 29

谷歌I/O大会：Gemini 3.5发布，AI接管搜索和眼镜-第1张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

一年一度的谷歌I/O大会，重磅来袭。

谷歌I/O大会：Gemini 3.5发布，AI接管搜索和眼镜-第2张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

这次谷歌官方一口气发布了24篇与I/O相关的公告, 其信息量颇为巨大, 然而主线并非繁杂: 底层模型已然更新至Gemini 3.5, 并且推出了面向视频以及多模态创作的Gemini Omni；在用户入口方面, Gemini App开始朝着个人助理的方向迈进；搜索开始增添更多AI模式以及智能体能力；购物、办公以及开发工具也都被再度接入Gemini；在硬件层面, 谷歌还展示了搭载Gemini的智能眼镜。

关键之处在于, 今年存在着模型能力的提高, 而且谷歌将Gemini放置到了各个不同的地方, 是这样的情况。

起初是搜索框, 而后到购物车, 接着又有智能眼镜……谷歌凭借AI对一切进行接管。

我们整理了这次大会上最值得关注的10个新东西，一起来看：

Gemini 3.5：迄今为最强的编码、智能体模型

先来看备受关注的底层模型。

此次谷歌发布了Gemini 3。5系列, 最先发的乃是Gemini 3。5 Flash, 3。5 Pro尚在内部处在使用状态, 计划在下个月予以推出。

即便3.5 Flash在名称当中依旧是Flash, 然而它的定位可不单单只是“快”以及“便宜”，能够这么讲, 它是谷歌此次所有Agent产品的发动机了。

3.面向编码、智能体任务以及真实工作流的5 Flash, 已进入Gemini App, 进了Google Search的AI Mode, 还进入了Google Antigravity, 进入了Gemini API, 进入了Android Studio, 并且进入了企业平台。

说在跑分这块儿, Gemini 3.5 Flash呢, 相较于3.1 Pro, 在编码能力方面, 它表现得更强, 在Agent能力方面, 也展现出更优的态势, 在工具调用能力方面, 同样有着较为明显的提升, 然而, 在Humanity's Last Exam这个项目上, 它存在着欠缺之处, 在ARC - AGI - 2这个项目上, 也依旧是有所短缺的。

谷歌I/O大会：Gemini 3.5发布，AI接管搜索和眼镜-第3张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

比起其他前沿模型, 在输出速度方面, 它要快四倍, 于人工智能分析指数里, 处于右上象限等情况, 这所表达的意思是即为又快且强人以及又快又强。

谷歌I/O大会：Gemini 3.5发布，AI接管搜索和眼镜-第4张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

谷歌I/O大会：Gemini 3.5发布，AI接管搜索和眼镜-第5张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

在定价这方面, 3.5 Flash输入的价格是每百万token为$1.50, 而其输出的价格是每百万token为$9.00, 它要比3 Flash的价格贵出了3倍之多, 同时又比3.1 Pro便宜了40%。

谷歌I/O大会：Gemini 3.5发布，AI接管搜索和眼镜-第6张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

官方给出了好些典型场景, 像是搞开发应用, 进行维护代码库工作, 着手准备财务文件, 去规整非结构化资产, 将旧代码库迁移至Next.js, 甚至于让两个agent展开合作, 把AlphaZero论文读完, 进而做出一个能够玩的游戏。

基于Gemini 3那强大无比的多模态基础, 3.5 Flash能够生成更为丰富的, 且更具交互性的Web用户界面, 以及图形。

它能够于不到一分钟的时间之内, 生成六个各异的支付页面, 并且还能够一次性制作出六十四个分形图案的变体；对于用户而言, 只要凭借文字将一个想法予以描述, 它便能够生成可具备互动功能的网页组件。

稍复杂些, 它能够将论文、课程视频转化成互动式学习卡片以及可视化页面。即便在Google搜索当中, 根据用户所提问题当场生成图表, 还有模拟器, 甚至是沉浸式解释界面。

谷歌I/O大会：Gemini 3.5发布，AI接管搜索和眼镜-第7张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

大家以往对Flash类模型的印象是, 它价格低廉, 运行速度还不慢, 只适合处理轻量级任务。然而现在谷歌想要表明的是, 未来的Agent在每一步操作中都不可能去调用那种价格最为高昂, 执行速度又最为迟缓的大模型。那些真正能够实现规模化运行的Agent, 所需要的是一个在速度、成本以及能力这三方面都处于相对平衡状态的模型。

这就是Gemini 3.5 Flash的位置。

Gemini Omni：谷歌版全模态生成模型

此次谷歌发布了一个新模型, 它并非Gemini 3.5，而是Gemini Omni, 并且这个新模型更偏向于创作方面。

谷歌I/O大会：Gemini 3.5发布，AI接管搜索和眼镜-第8张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

谷歌给它制定了这样一个定位, 那就是, 能够从任何一种输入, 去生成任何一种内容。

不可否认, 当下首要的那一步依旧是视频, 随后谷歌还打算去支持像图片, 音频呀等更多的输出形式。

率先上线的是Gemini Omni Flash, 其已对Google AI Plus、Pro以及Ultra订阅用户予以开放, 能够在Gemini App以及Google Flow里进行使用, YouTube Shorts还有YouTube Create App也会免费接入。在未来的几周时间当中, 谷歌还会借助API将它开放给开发者以及企业客户。

Omni并非是那种仅仅单纯的文生视频模型, 它能够一同将文字, 以及图片, 还有音频, 甚至视频当作输入, 接着产生出一段完整的视频, 而且还对, 能够支持对话式视频编辑的这种情况给予支持。

谷歌I/O大会：Gemini 3.5发布，AI接管搜索和眼镜-第9张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

官方还展示了这样一个例子, 这个例子是关于连续修改的: 首先先生成一个视频, 这个视频里是小提琴手在进行演奏, 接着把小提琴手放置到另一张图片里所呈现的环境之中, 随后将小提琴变成透明的状态, 最后把镜头角度改成从小提琴手肩膀后方进行查看。整个过程是一轮接着一轮地去改, 并非每次都推倒之后重新再来。

谷歌尤为着重指出, Omni后面衔接的是Gemini的世界知识, 其对于重力、动能、流体这些物理效果具备更为出色的理解, 并且能够将复杂概念制作成解释视频, 行动会引发后果, 环境会针对事件作出反应, 叙事会依照逻辑向前发展。

换个角度来讲, 谷歌所想要传达的意思是, AI视频并非仅仅局限于能够制作出炫酷的短片, 它同样可以转化成为一种用于知识表述的工具。那些复杂的概念, 科学的过程, 教学的相关内容, 均能够被转变为更为直观的视频。

如Seedance 2.0, Omni亦是可凭借多种参考素材去生成视频, 图片、视频、音频、音乐均可作为输入。用户能够使它留存某张图里的角色, 借用一段视频里的动作, 还能让画面顺着音乐节奏进行变化, 最终构建出一段全新的完整视频。

官方还提及, 用户能够自打已有素材着手, 将草图用作动作参照。再把该草图演变成真实的景致, 像是借鉴视频内鲸鱼游动那个动作, 并迁移至那么种发亮流体材料上头。又或者保持房间构造维持原状不变而仅是进行小小的变化, 仅仅把植物变换成呈现半透明状的发光植物, 而且还要使得萤火虫与声音的高低长短调节发生呼应互动。

简便而言, Omni期望用户可以, 将各类素材、风格、动作以及声音，重新予以组织, 进而形成一个全新的视频, 这对于创作者来讲是颇为重要的。

然而, 瞧瞧社群所呈现出的反应, 它在实际使用时并不具备Seedance 2.0那般的出色状况……不过, 这仅仅只是Flash版本开启的一个初始阶段而已, 是这样的?

从安全角度而言, Omni能够助推用户去打造自身的数字分身, 此数字分身乃是借由自身的声音以及形象来生成视频。然而谷歌着重表明, 其他那些牵涉到改音频、改语音的能力尚处于测试进程之中, 推出之时需秉持更为审慎的态度。Omni所生成的全部视频都会附带不可见的SynthID数字水印, 用户能够借助Gemini以及Google搜索去查验内容是不是由Gemini Omni生成。

Gemini App：大更新

这次Gemini App也大改。

谷歌I/O大会：Gemini 3.5发布，AI接管搜索和眼镜-第10张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

谷歌宣称, 对Gemini App而言, 今年呈“成果丰硕之年”态势。去年I/O之际, Gemini App拥有4亿用户, 如今已有超9亿月活跃用户, 其覆盖范围涵盖230多个国家以及70多种语言。

这次 Gemini App 的更新主要有几个：

第一，接入Gemini 3.5 Flash。

第一, 推出全新设计语言双子神经表达, 界面将更具动态性, 具备流体动画、更为鲜明的色彩、全新字体以及触觉反馈 , 同时双子活态被直接整合进双子系统 , 使用者能够从打字自然切换至语音对话；第二, 谷歌宣称, 双子今后不会仅仅给予使用者一堵文字墙 , 可于此时此刻基于问题编排出更契合的回答样式 , 诸如画面、交互时间轴、旁白视频以及动态图形等；第三, 此全新设计自今日起于全球范围的网络、安卓及苹果操作系统推出。

谷歌I/O大会：Gemini 3.5发布，AI接管搜索和眼镜-第11张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

其三, Gemini App连接Gemini Omni后, 能够直接进行视频创作与编辑。用户能够上传手机相册内的素材, 借助模板、提示词、背景替换以及电影感变焦等形式来制作视频。甚至还能够打造自身的数字分身。

第四, 存在一个名为Daily Brief的事物。它宛如一个早晨简报Agent, 在你进行授权以后, 它会于后台查看你的Gmail、Calendar, 将紧急邮件、接下来的日程、需要跟进的事项予以整理, 形成一个早间摘要。它并非仅仅是总结, 还会依据你的目标进行排序, 并且给出下一步建议。Daily Brief起始于美国, 是面向Google AI Plus、Pro、Ultra用户所推出的。

谷歌I/O大会：Gemini 3.5发布，AI接管搜索和眼镜-第12张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

第五，也是最重要的世界杯直播，是Gemini Spark。

Gemini Spark：谷歌版24小时个人Agent

Gemini Spark是这次最值得单独介绍的产品之一。

谷歌对它的定位是全天候私人人工智能代理, 就是说, 经过你授权时, 能持续为你去做事。

它于Gemini 3.5之中运行, 借助Antigravity harness, 且深度关联Gmail、Docs、Slides等工具。并且鉴于其为云端Agent, 故而即便你关闭电脑、锁定手机, 它依旧能够于后台持续工作。

谷歌举了几个例子。

比如说, 你能够使它定时剖析每月的信用卡账单, 从中找寻新增的订阅项目或者潜藏的费用；又或者, 教导它去检查孩子学校的邮件, 将重要的日期提取出来, 每日给你以及伴侣发送一份简报；再者, 你能够让它从邮件以及聊天记录里的会议笔记之中提炼信息, 整理成为Google Docs, 随后起草一封项目启动的邮件。

这是典型的Agent叙事：帮你跨应用完成一串动作。

这同样是谷歌所拥极具优势且尤为敏感之处, 其手中持有Gmail、Calendar、Docs、Drive、Slides、Maps、YouTube、Search, 只要用户乐意进行授权, Gemini能够触达的个人上下文, 将会成为一个极为庞大的生态。

诚然, 谷歌同样在着重突出权限以及安全。Spark要求用户抉择是否开启, 连接哪些App；当涉及花钱、发邮件这类具有高风险的动作之际, 会预先向用户进行询问。

本周, 这一功能首先会面向trusted testers, 而下周, 其计划是做为Beta推送给美国Google AI Ultra用户。

macOS版Gemini：开始进入桌面工作流

Gemini App存在着一个相对而言较容易被人们忽视掉的更新, 那就是macOS桌面版。

谷歌宣称, Gemini的macOS App现已能够进行下载, 后续会将Gemini Spark引入桌面端, 使其能够处理本地文件, 进而实现桌面上工作流的自动化。它还会增添新的语音能力, 具体表现为: 当用户朝着屏幕说出一段, 既不完整, 又夹杂着停顿以及口头禅的话语时, Gemini可依据屏幕上下文, 将其整理成更为准确的文本, 并直接放置到光标所处位置。

有件事, 看上去规模较小但是也值得予以留意, 原因在于Agent最终是不可能仅仅在网页中从事工作的。存在诸多实际工作是在本地发生的, 其中包括文件夹、桌面软件、浏览器、多个窗口以及多个文档之间。谷歌将Spark引入到macOS之中, 实际上就是朝着桌面Agent的方向发展的。

之前, 我们撰写过一篇文章, 提及PC乃是agent时代的头号硬件, 谷歌于The Android Show上发布的诸多软件产品和硬件产品, 它们更适配真实工作流, 这与上面所讲的硬件之事是相互连通、彼此有内在联系的。

Google Search：搜索框25年来最大改版

这次最有象征意义的产品，还是Search。

谷歌I/O大会：Gemini 3.5发布，AI接管搜索和眼镜-第13张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

谷歌表明, AI Mode上线一整年之后, 月活跃用户数量已然超过了10亿, 其间查询量每一个季度都会实现翻倍增长。当下, 谷歌将Gemini 3.5 Flash当作AI Mode的默认模型, 并且宣称要对搜索框做出25年以来规模最大的一次升级。

新的搜索框不再只是输入关键词的小框，变成了一个AI入口。

它能够进行动态的展开, 能够让你以更为自然的方式去描述问题, 它会依照意图给出AI建议 , 并非仅仅是传统的自动补全, 它支持多模态的输入, 能够使用文本、图片、文件、视频甚或Chrome标签页当作输入。

也就是说, 搜索不再仅仅是“给我十个链接”这般简单, 而是转变为“我有一个问题、一段材料、一张图片、一个网页上下文, 你帮我理解并且延续下去随后继续前行”。

除此之外, AI Overview亦能够以更为自然的状况接入AI Mode。用户可径直对AI Overview予以继续追问。随后, 搜索会带着上下文而进入对话。此种体验当前已经在桌面以及移动端于全球上线。

此次Search存在着另外一种具备更强烈Agent化特质的能力, 那便是Search agents。

谷歌表明, 往后用户能够于Search之中开展创建, 进行定制, 并实施管理多个AI agents。首批为information agents, 即信息型Agent。它们能够全天候于后台对用户所关切之信息予以监控, 随后在恰当之时给予用户一份综合更新。

这和Google Alerts很像世界杯直播观看，但更智能。

仅能依据关键词来进行订阅的是Google Alerts。订阅“你的意图”的则是Search agents。它并非如同爬虫那般仅仅去查看某个词是否出现, 而是要领会你到底所需要的是什么, 进而跨越网页、新闻、社交、购物、体育、金融等信息源去监控变化。

今年夏天, 先给Google AI Pro用户推出information agents, 再给Google AI Ultra用户推出information agents。

除此之外, 另一个方面是Search正在对agentic booking予以扩展, 所谓的agentic booking也就是说会协助你去完成预订类型的任务, 举例来说, 要是你寻觅一个在本周五晚上时分的、能够接纳6个人容纳量人数的、具备供应夜宵相关服务的私人KTV的房间场地, 那么Search凭借所具备的功能性质其会综合考量价格以及可用性这二者的情况, 然后给予你直接达成预订的入口之处。针对特定的一部分品类, 也就是家政维修服务类别品类、美容方面品类、宠物护理分类品类, 身为用户的你甚至能够让Google代替你去给商家拨打相关电话。而这些能力在今年夏天这一时间段是在美国面向所有使用的用户予以推出的。

此外, 谷歌又将Antigravity以及Gemini 3.5 Flash的编码能力引入到Search中了, 其目的在于要使得搜索结果不仅仅是文本、图片、表格, 而是能够依据你的问题来立即产生恰当的交互界面。

要是你打算去领会天体物理, 又或者是想要瞧瞧手表内部是怎样运转的, Search能够实时进行组装交互视觉、表格、图表、模拟器。这些generative UI能力在今年夏天会免费向所有Search用户开放。

另外, Search能够为那些具有持续性的任务制造出mini apps。比如说, 当你处于搬家的进程中, 或者正忙于筹备婚礼事宜, 亦或是在管理健康计划的时候, 这并非是仅通过一次搜索就宣告结束的情况, 而是属于一个需要长期推进的项目范畴。Search能够为你构建打造出一个可自定义的dashboard或者tracker, 在此之后, 你能够持续地返回并加以使用。

谷歌I/O大会：Gemini 3.5发布，AI接管搜索和眼镜-第14张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

这不啻于一种全新的产品样式, 极为近似, 搜索所得结果并非网页, 而是摇身一变成为临时生成的小型工具哪。

Universal Cart：谷歌想做AI购物车

购物也是这次大会的大更新之一。

谷歌I/O大会：Gemini 3.5发布，AI接管搜索和眼镜-第15张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

谷歌推出了Universal Cart, 这是一种跨越服务、跨越商家的智能购物车, 它能够现身于Search、Gemini、YouTube、Gmail之中, 在用户搜索商品时、与Gemini聊天之际、观看YouTube之时、阅读Gmail当中, 都能够将商品添加到同一个购物车里面。

但它不是普通的购物车。

商品一旦被加入购物车, 它便立刻于后台开展工作, 此项工作涵盖寻找优惠, 追踪价格下降情况, 查看价格历史记录, 以及提醒补货。它还能够凭借推理能力预先察觉到问题, 举例来说, 倘若你在不同零售商处购置电脑配件, 它会向你发出提醒, 告知哪些零件存在不兼容状况, 并推荐可供替代的方案。

谷歌I/O大会：Gemini 3.5发布，AI接管搜索和眼镜-第16张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

鉴于它以Google Wallet为基础, 并且能够领会你的支付方式权益, 以及会员信息, 还有商家优惠, 从而助力你寻觅到隐藏折扣或者积分机会。

结账之际, Universal Commerce Protocol将要使得用户借助Google Pay迅速达成购买行为, 至于说把商品转至商家网站进而持续下单。

谷歌表明, Nike、Sephora、Target、Ulta Beauty、Walmart、Wayfair, 还有Shopify上的Fenty、Steve Madden等品牌将会参与有关结账能力，Universal Cart于今年夏天会首先在美国的Search和Gemini App推出, 随后进入YouTube和Gmail。

谷歌提及了Agent Payments Protocol, 也就是AP2, 其目的在于致使Agent为用户开展安全付款操作, 用户能够给予Agent设定严苛边界, 诸如仅能购买哪些品牌、哪些产品以及最多花费多少钱；AP2会于用户、商家、支付处理方之间构建可验证记录, 使得Agent的购买行为具备边界、拥有凭据以及能够被追踪；谷歌宣称, AP2将在未来几个月进入Google产品, 首先是从Gemini Spark起始。

不过……购物也就算了，谁会想让AI帮你一键付款呢。

智能眼镜：Google Glass的AI时代重启

硬件侧最值得关注的是智能眼镜。

谷歌I/O大会：Gemini 3.5发布，AI接管搜索和眼镜-第17张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

谷歌眼镜以往做得实在是糟糕透顶, 甚至可以算得上是硅谷硬件发展历程中, 那种“技术层面酷炫夺目, 然而产品整体设计存在欠缺并未能明晰通透”的典型代表事例。

此番与往昔Google Glass最为显著的差异乃是产品逻辑改换了, Google Glass仿若将手机通知、拍照、导航这般功能, 强行塞入眼前, 然而此次的Gemini智能眼镜却更似这般, 使AI随时目睹你所见到之物、听闻你所听到之物, 随后助力你予以理解与处置。

就是说, 它已经不单单是那种“戴在脸上的小屏幕”了, 而是转变成了一个更为自然的AI入口。

今岁之谷歌 I/O 大会之际, 谷歌披露了更多关乎智能眼镜之讯息, 该眼镜能够于不干扰你的情形下, 即刻予以协助呀。

智能眼镜存有两类, 其一为音频眼镜, 它能够于你的耳朵之内给予语音协助, 其二乃显示眼镜, 其可在你有需求之际即刻呈现所需信息, 此两种眼镜均可使你松开双手, 将精力贯注于别的事务, 仅需张嘴发问便可获取Gemini的帮助。

音频眼镜会先上市，今年秋天推出。

谷歌I/O大会：Gemini 3.5发布，AI接管搜索和眼镜-第18张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

谷歌I/O大会：Gemini 3.5发布，AI接管搜索和眼镜-第19张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

样子看起来，怎么说，挺日常的。

在功能方面, 它能够借助“Hey Google”或者经由轻触镜腿这种方式将Gemini唤起。用户能够针对眼前所见到的事物对它进行询问, 象若是路过了一家餐厅, 便询问其评价究竟如何；要是看到了一块云, 就问这到底是什么云；倘若看到了复杂的停车标志, 任由它来帮自己作出解释。

它具备导航支持功能, 能够接电话, 能够发短信, 可以对错过的消息进行总结, 能够播放音乐, 它能进行拍照以及视频拍摄, 还能运用Nano Banana开展图像编辑工作, 就像拍完照后直接诉说“给每个人戴上搞笑帽子”, 它可以实时实现语音与文字的翻译, 在翻译语音之际甚至会尽可能去匹配说话人的语气以及音高, 该眼镜能够连接Uber、Mondly等手机应用, 并且同时对Android和iOS予以支持。

虽说着实不容易确切表述实际运用的成效究竟怎样, 然而此次起码成功规避了Google Glass往昔的若干隐患:

并非再将眼镜视作微型手机, 其核心并非在于通知以及小屏幕, 而是Gemini针对现实世界的理解与任务执行；并非一开始便押注于侧重AR, 而是先推出音频眼镜, 以此降低硬件难度以及社会接受门槛；并非再对外观予以忽视, 而是去找Gentle Monster和Warby Parker, 承认眼镜属于时尚消费品, 并非纯粹的科技产品。

毕竟当初Google Glass长这样：

谷歌I/O大会：Gemini 3.5发布，AI接管搜索和眼镜-第20张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

场景变得更为清晰了, 导航, 翻译, 识别眼前之物, 总结消息, 拍照编辑, 叫车点单, 这些均愈发贴近“我佩戴它的缘由”。

谷歌反重力2.0, 那是, 处于开发者一侧的Agent工作台 , 对吧?

从开发者的角度来讲, 最为重要的存在是Google Antigravity 2.0。

谷歌将其称作agent-first development platform, 这意味着, 它并非一般的IDE插件, 而是一个围绕Agent构建的开发平台。

此次I/O大会, 发布了Antigravity 2.0桌面应用程序, 发布了Gemini API里的Managed Agents, 还发布了AI Studio的原生Android vibe编码。

过去, AI编程工具的核心在于“帮你填充代码、撰写函数、阐释报错信息”, 如今, 谷歌想要达成的是“从提示到可投入生产的应用程序”, 亦即你给出一个目标, AI便能够进行规划、拆解任务、调用工具、运行测试、修复漏洞、开展部署操作, 而且有可能使多个子智能体同时并行开展工作。

这与Codex竞争的是同一条赛道, 这与Claude Code竞争的是同一条赛道, 这与Cursor竞争的是同一条赛道。谷歌具备优势之处在于, 谷歌并非仅有模型, 谷歌还有Android, 谷歌还有Firebase, 谷歌还有Cloud, 谷歌还有Workspace, 谷歌还有Play Store, 谷歌还有Search, 谷歌还有Chrome等完整生态。

专案精灵加以街景影像系统, 世界模型着手衔接真切街景。

另一个偏前沿的产品是Project Genie。

谷歌I/O大会：Gemini 3.5发布，AI接管搜索和眼镜-第21张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

有个叫Genie的东西, 它属于Google DeepMind, 是一种通用的世界模型, 能够缔造出各类多样以及可交互的环境。谷歌声称, 它已然摇身一变成为了研究工具, 靠着它可以让Agent, 在那种复杂的虚拟环境里去进行学习以及推理！它还在助力一家名叫Waymo的公司, 这家公司是Alphabet旗下搞自动驾驶的, 帮着它去模拟那种具备颇高真实程度的道路环境。

将Genie与Google Street View连接起来, 这便是此次的新能力。

即, Genie的这一行为, 是将生成能力起始点, 与Google历经殆20年终雕琢而成街景图像相融汇结合, 如此动作, 使得模型所生成环境, 能够确切锚定实实在在具象实在有血有肉身属无疑的真实世界。谷歌声称, 这般神奇现象, 能够切实向基于AI构建agents或机器人供给虚拟形成之环境, 从而能让它们于其中, 开展导航行动, 投入活泼互动, 探索及感悟学习现实世界蕴含的繁杂构成要素。

机器人以及自动驾驶, 需要海量真实世界数据, 可现实现象世界测试, 代价巨大且危险, 速度还慢。世界模型能够赐予虚拟培训场地；Street View乃谷歌独有的数据财产。两者相结合, 表征着谷歌能够将真实大街小巷景象转化变成为可以交互的模拟周边环境。

也就是说, Project Genie, 是谷歌所进行的一种尝试, 这种尝试是要将“地图资产”转变成为“AI训练环境”。

总结

今年, Google I/O并非那种只关注一个单独要点的发布会, 而是一场有着诸多方面且全面铺开生态的活动。

谷歌发布了Gemini 3.5和Gemini Omni之处于模型层, 其中的Gemini 3.5是面向行动和Agent的, 而Gemini Omni则是面向全模态生成和视频编辑的。

处于产品层面, Gemini被放置进Search, 放进Workspace, 塞入Shopping之中, 置于Flow里, 安在AI Studio以及智能眼镜那儿。它已不单单只是一个App, 而是成为Google产品体系里的统一智能层。

商业层面, 谷歌动手将Agent 用于真实的事务工作中, 具体包括帮你去留意信息, 去预订服务, 去料理购物车, 去处置邮件, 去撰写文档, 去制作App, 去生成视频, 甚至还要辅助进行科研工作。

在这次大会当中, 有一个呈现出明显特征的趋向是, 谷歌正处于将Gemini转变成为Google生态的操作系统的进程之中。

以前的Google, 是一个你会自主去运用的工具箱, 你能够借助它来进行搜索, 发送邮件, 撰写文档等等。如今, 谷歌打算让Gemini处于这些工具的上方, 领会你的想法, 调用这些工具, 为你去完成一连串的举动。

今年, I/O的发布, 看上去, 特别多元, 特别分散, 涉及搜索, 购物, 办公, 视频, 眼镜, 开发以及科研等领域, 几乎每条线, 都在提及AI, 而它们所指向的, 实际上, 是同一件事情。

谷歌想要证明开云app在线入口，自己仍然拥有把AI变成日常入口的最大生态。

标签：谷歌I/O大会 Gemini3.5发布 AI接管搜索智能眼镜 Agent工作台

本文地址： http://mcluo.com/post/1369.html