谷歌Gemini实测：看穿魔术、批改手写题，AI终于会猜你的小心思了

admin AI新闻 2026-06-05 32

视频里, 一个男子做出了后仰动作, 还做出了躲避动作, 这两个动作呈现为慢动作, AI立刻就猜出, 这是在表演《黑客帝国》里“子弹时间”的场景。

在人类拿起画笔, 于一张纸上勾勒出一只鸭子之后, 紧接着为那只鸭子涂上了蓝色。此时人工智能说道: “这并非是鸭子通常所具有的颜色。”。

放在桌子上的是并排的三个空杯, 有一张蓝色纸团被塞进了其中一个杯子, 在人类进行的一番令人眼花缭乱的操作以后, AI准确地猜出, “纸团在最左边的那个杯子里面！”。

喂AI一张亲手写就的, 涉及物理学科的一类题目, 它不单单能够领会其含义, 加之还能够辨别亲手书写答案的正确与否, 并且给出针对问题, 循序渐进解决的详细过程。

将食材图像进行上传, 把语音进行输入, AI不但能够对你做菜予以指导, 而且还能够在不同阶段给出相应的建议。

这些片段, 呈现的是Google展示其在12月6日最新生产出来的AI大模型 Gemini的情景 , 是这样的一些场景。

进行完一系列视频演示之后, Google DeepMind产品副总裁Eli Collins（伊莱·柯林斯）, 对包括第一财经在内的媒体讲了这样一番话, 他表示这是Google迄今为止功能最为强大、最为通用的大模型, 还说我们距离新一代人工智能模型的愿景是越来越接近了。

同市面上现有的大模型相比较而言, Gemini 一开始就是那种被创建成多模态的模型, 这所蕴含的意思是, 它能够进行归纳, 并且能够流畅地对不同类型的信息予以理解、操作以及组合, 这些不同类型的信息计有文本、代码、音频、图像以及视频。在灵活度方面, 不管是从数据中心到移动设备之上, 它都具备能够运行的能力。

Gemini被看作是Google于AI大模型范畴抛出的“厉害招数”, 多年以前, Google借AlphaGo的出色表现于全球掀起了一阵AI热潮, 不过这一回, 在OpenAI的GPT引发的AI新潮流里面, Google面临着不小的压力, 当下开云app在线入口，Google急切需要一款具有现象级的AI产品, 用以证明自身在人工智能领域的能力。

谷歌Gemini实测：看穿魔术、批改手写题，AI终于会猜你的小心思了-第1张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

能打败GPT4吗？

恰恰是在Google发布其最新大模型之前的时候, 微软才刚刚宣布了旗下AI助手Copilot的重大升级, 而且这个升级是将接入OpenAI的最新模型GPT - 4 Turbo。

Google 公布消息之后, 英伟达 AI 科学家 Jim Fan（范麟熙）, 在第一时间进行了转发, 并且作出评论, “迟到总比不做好！终于有了 OpenAI 王座的有力竞争者。”。

Google首席执行官桑达尔・皮查伊评价, Gemini这个新时代的模型, 代表了Google作为一家公司, 在科学以及工程方面所付出的最大努力当中的一个。他与此同时提到了, 这也是Google在今年早些时候成立Google DeepMind的时候, 其愿景首次成为现实。

今年4月, 可能是察觉到了OpenAI联手微软所带来的挑战 , 并且也是为了能加速达成通用人工智能即AGI的目标 , Google把曾经诞生了Tensorflow与Transformer的Google Brain团队 , 以及凭借AlphaGo掀起上一轮人工智能热潮且创造了AlphaFold预测蛋白质折叠的DeepMind团队进行了合并 , 成立了Google DeepMind , 这一团队还被外界戏称为“AI复仇者联盟”。在那时, 曾任Google AI产品负责人的那个人, 也就是Eli Collins, 开始成为新团队的产品副总裁并担任起该职位。

在今日, Google Deepmind发布了首个版本Gemini 1.0, 它针对多种不同尺寸做了优化, 有的尺寸是Ultra, 有的尺寸是Pro, 还有的尺寸是Nano。在这里面, Gemini Ultra对最为高度复杂的任务适合且其是Google当前规模最大、功能最为强大的模型；Gemini Pro是那种适用于具备可扩展性特质的各种任务的模型；Gemini Nano主要是在端侧设备上所存在的模型。

Gemini发布完毕之后，外界最为关注的要点在于其针对OpenAI GPT4所形成的挑战 , 于采访期间, 记者向Eli Collins提出问题: “Gemini可不可以战胜市面上涵盖GPT4在内的全部大模型呢? ”。

Eli Collins于回答里表明, 团队始终在针对Gemini模型开展严谨的测试, 并且评估它于种种任务里的性能, 从自然图像、音频以及视频理解再到数学推理, 于被大型语言模型研究和开发中广泛运用的32项学术基准当中, Gemini Ultra的性能有30项均超越了当下最先进的水准。

他引用了源自MMLU的测试结果, 宣称Gemini Ultra有着得分率是90%的情况, 它是首个于MMLU测试里超越人类专家的模型, MMLU综合运用了数学、物理、历史、法律、医学以及伦理等57个科目, 旨在测试世界知识与解决问题的能力。作为对照, 人类专家的得分率是89.8%, GPT4得分率是86.4%。

Gemini Ultra在多模态领域, 于新的MMMU基准测试里, 取得了59.4%的SOTA分数。该基准测试由跨不同领域的多模式任务构成, 要求大模型开展一个经过深思熟虑的推理过程。

谷歌Gemini实测：看穿魔术、批改手写题，AI终于会猜你的小心思了-第2张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

于一系列基准测试里, 其中涵盖文本以及编码方面, Gemini的性能皆超越了当下最为先进的水准。

多模态背后的Goolge Gemini大模型技术原理, 引发了业界的关注, Goolge DeepMind首席科学家杰夫·迪恩团队, 撰写了60页技术报告来进行阐述。

到当前这个时候, 构建多模态模型的常规办法是, 先各自训练不同模态的组件, 接着把它们组合到一块儿, 以此大致模仿部分功能, 对于这些模型, 有时能够出色地达成描述图像之类的特定任务, 然而在概念性更为突出、格局更为繁杂的推理层面, 却显得力有不逮。

根据DeepMind首席执行官戴密斯·哈萨比斯所透露的情况, 该团队把Gemini设计成原生多模态形式, 从起始阶段便在不同模态方面开展预训练, 紧接着, 运用额外的多模态数据对其实施微调, 以此进一步提升其有效性, 这对Gemini具有帮助作用, 能使其在最初阶段就可以对输入的各类内容顺利地进行理解与推理, 并且比现有的多模态模型更为出色。

复杂的多模态推理能力, 有助于理解复杂的书面信息, 也有助于理解复杂的视觉信息, 凭借此, 它能够在海量数据里, 发掘那些难以辨别的知识内容, 还能够回答与复杂主题相关的问题, 在解释数学这类复杂科目的推理方面尤为擅长, 在解释物理这类复杂科目的推理方面同样尤为擅长。

谷歌Gemini实测：看穿魔术、批改手写题，AI终于会猜你的小心思了-第3张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

以解题当作例子, 借助Gemini的多模态推理能力, AI可以读懂字迹杂乱的手写内容, 准确理解问题的表述, 并且能够将问题以及解决方案都转化为数字排版, 识别出人类在解决问题时出现错误的具体推理步骤, 还能一步步给出问题的正确解决方案。

另外, 它具备这样一种能力, 这种能力是通过阅读信息、过滤信息以及理解信息, 从而从数十万份文件当中提取数据集和观点, 它有助于在诸多领域, 像从科学领域到金融领域等, 以数字化的速度达成新的突破。

背后是Gemini多模态大模型, Google自研的云芯片TPUs v4和v5e, 处于被AI优化过的基础设施上, 对Gemini 1.0进行大规模训练。

就在当天, Google发布了最新的TPU系统Cloud TPU v5p, 宣称其训练速度相较于前代而言快了2.8倍, 有着能够帮助开发者以及企业客户更加迅速地训练大规模生成式AI模型的可能性。

应用层比拼刚刚开始

现在看上去, 在“跑分”这方面, Google Gemini表现更加出色, 然而在后续阶段, 那些更为关键的是, 各个大模型于实际运用里的相互竞争。

接受第一财经等媒体采访时, Eli Collins称, Google期望构建新一代AI模型, 该模型由人们对世界的理解与互动所激发, 人工智能更像一个乐于协助他人的合作者, 而非一个聪明的软件。

当下, 隶属于 Google 的那个聊天机器人 Bard, 已集成了 Gemini Pro 的微调版, 于超过 170 个国家以及地区给付英语服务, 而且还做出计划, 打算在往后几个月里去扩展不同的模态, 同时给新的语言和地区予以支持。明年年初的时候, Google 又将会推出 Bard Advanced开云真人官方下载，去提供 Gemini Ultra 模型的最佳性能。

在移动设备端, Google的Pixel 8 Pro身为首款搭载Gemini Nano的智能手机, 它具备支持录音总结、智能回复等AI功能的能力, 明年会再推出更多信息应用。

谷歌基于定制版的Gemini, 推出了代码生成系统AlphaCode 2。Google宣称, 在面临那些不但涉及编程, 而且还涉及复杂的数学以及计算机科学理论等领域的问题之际, AlphaCode 2呈现出了卓越的性能。

在接下来的几个月当中, Gemini会被运用到Google的更多产品以及服务之上, 像是Search, 还有Ads, 包括Chrome , 以及Duet AI。

据消息透露显示, Google已然着手于Search里对Gemini展开试验, 它具备可为用户供给更为快速的搜索生成体验（SGE）的能力, 在美国的英语搜索情境下, 用户所历经的延迟呈现出降低了40%的状况, 与此同时, 于搜索质量这一方面而言也有着相应的提升与提高。

Google方面人士, 针对Google为防止Gemini出现产生幻觉与事实错误的情况世界杯直播观看，以及防止其被用于创造危险工具和导致产生其他不符合道德规范用途所应用的努力, 向记者作出了解答。

谷歌基础设施与系统副总裁阿明·瓦达特, 向记者表态称, Gemini于开发的各个阶段, 都会将潜在风险纳入考量范围, 且力求通过测试来降低这些风险。

他透露, Gemini的安全评估涵盖对偏见的评估, Gemini的安全评估包含对毒性的评估, Gemini应用了Google Research的对抗性测试技术, Gemini应用该技术是为了帮助在部署Gemini之前检测关键的安全问题。

比如说, 在Gemini的训练时期, 要去诊断内容安全方面的问题, 还要保证其输出是契合政策的, Google团队运用了一些基准测试, 像真实毒性提示（Real Toxicity Prompts）, 这是一组由Allen Institute of AI的专家所开发的基准测试, 它涵盖了从网络里提取的10万条有着不同程度毒性的提示。

此外, 为拿去降低所造成的伤害, 团队还精心构建了专门的那种安全分类器, 以此来辨认、做出标记以及去筛选涉及暴力或者负面刻板印象之类的一些方面的内容。“此外, 我们正在持续不断地去解决模型所面临的那些已知的挑战, 比如说事实性、基础、归因性以及协作性的这些方面。”。

Google并未透露往后会不会特意为Gemini去定制应用程序, 不过高管跟记者讲, 更期望能看到用户基于这种技术去创建更多的应用程序。

Google透露, 12月13日起, 开发者可通过Google AI Studio获取Gemini Pro, 企业客户也可经由Google Cloud Vertex AI中的Gemini API获取Gemini Pro。

当下, Google 于 Gemini Ultra 正开展大规模的信任与安全检查, 这其中涵盖了由可信赖的外部团队实施红队测试, 并且在其被广泛运用前, 借助微调和人类反馈强化学习（RLHF）来进一步完善模型。在这个进程里, Google 会向部分客户、开发者、合作伙伴以及安全和责任专家提供 Gemini Ultra, 用以供他们进行早期试验以及给出反馈。

据记者所知悉, 隶属于Google的相关方面, 会于明年开端之际, 朝着开发者还有企业客户这两个群体, 去供应那款模型。

标签： AI Google Gemini 大模型多模态