谷歌官宣Gemini 1.0，含三个版本，主打多模态能力

admin AI新闻 2026-06-04 35

在当地时间, 是12月6日。谷歌, 官宣了其最新的, 大模型Gemini 1.0。

Gemini 1.0跟LLaMA模型是类似的, 它同样是一组系列模型, 这里面涵盖着三个版本。

Gemini Ultra, 其参数量是最多的, 能力是最为强大的, 适用于那种高度复杂的艰巨任务。

Gemini Pro——可扩展至各种任务的模型。

Gemini Nano——高效的设备端任务模型。

Gemini 1.0着重突出多模态能力, 谷歌把Gemini界定为一个“原生多模态（natively multimodal）”的模型。

针对于模型能力来讲, 谷歌表明, Gemini Ultra的性能, 在大型语言模型也就是LLM研发里所运用的32个被广泛使用的学术基准之中的30个, 超越了当下最为先进的结果。

处于MMLU（大规模多任务语言理解）测试架构里, Gemini Ultra的得分达到了90.0%, 并且还超过了人类专家。

Gemini, 被谷歌CEO, 也就是Sundar Pichai, 称作“谷歌到目前为止所拥有的最大的、能力最为强大的AI模型”。

Sundar Pichai在Gemini的官宣博客中写道：

拥有最先进性能, 于诸多领先基准测试里均凸显。谷歌首个版本Gemini 1.0作以优化, 面向不同尺寸: Ultra、Pro以及Nano。它们乃Gemini时代的首个模型, 是谷歌于今年早些时候创设Google DeepMind时愿景之首次达成。此模型的全新时代表征着谷歌作为一家公司所付诸的极大科学与工程努力之一。我对未来满怀由衷兴奋, 关于Gemini能为世界各地之人带来的机遇。

眼下, 谷歌官方宣称, 其主打之聊天机器人Bard已然升级至Gemini Pro版本, 于推理、规划以及理解等诸多方面的能力明显大为提升起来, 而且还持续以免费方式向用户予以提供服务呢, 谷歌预估预计明年年初的时候推出更为先进的“Bard Advanced”, 到那个时段将采用Gemini Ultra。

在之前Gemini进行发布时期, 谷歌在相关生成式AI以及LLM方面作主推使用涉及的两款模型之中存在诸如PaLM 2这种和LaMDA那种, 在各位用户当中收获到的评价一直以来都不是特别高, 与业界处于领军地位的GPT-4比较差距是特别显著且具有明显不同的。

鉴于此, 在传闻里谷歌着重开展研发工作的Gemini模型, 始终被赋予了深切的期望。Gemini还是谷歌大脑（Google Brain）和DeepMind合并构建Google DeepMind之后所诞生的首个关键产品。

下面我们来看看，Gemini到底牛在哪？

超过人类专家，向强人工智能迈近一步？

“Gemini在MMLU基准测试中超越人类专家。”

即便, 有了AlphaGo的经历, 我们却不觉得AI于某些领域超越人类是啥新奇事儿。可是此时和以往不一样, 就在GPT带来的AGI、强人工智能“威压”下, 任何算得上远超人类的AI, 略微总会引人注意。

那么在这个测试集中超越人类专家，到底有多厉害呢？

主流评测数据集当中包含大型语言模型（LLM）的有, GLUE、SuperGLUE、SQuAD、CommonsenseQA、CoQA、LAMBADA等。一般是用来评估模型在语言理解这一方面的能力的, 还有推理方面的能力, 以及阅读理解方面的能力, 和常识推理方面的能力。

MMLU, 也就是大规模多任务语言理解, 是一个测试集, 它结合了数学、物理、历史、法律、医学以及伦理学等57个科目, 与其他测试集相比, MMLU在广泛性和深度方面表现得更强, 它利用大量且多样的任务, 去测试AI模型在理解自然语言方面的能力, 尤其是在复杂且多变的真实世界场景中的表现, 这致使MMLU成为一个极具挑战性的评测框架, 能够全面地对大型语言模型进行评估, 并推动其发展。

谷歌官宣Gemini 1.0，含三个版本，主打多模态能力-第1张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

GPT-4与Gemini在MMLU测试集的对比

这个框架一般包含数量达数千的不同任务, 这些任务覆盖范围广阔的主题以及挑战。MMLU 的目标乃是给出一种全面且具有多样性的方法, 通过它来测试以及评估语言模型于各类复杂的、现实世界场景当中的表现。其中所涉及的测试任务或许涵盖理解笑话、回答跟世界历史相关的问题、解释科学现象等诸多更贴近于人类知识、常识以及理解能力的项目。

在MMLU测试里, Gemini做到了超越人类专家, 这话亦能这么去理解, 于这个测试框架范围之内, Gemini在所展现出的“各种复杂以及现实世界场景中的表现”方面超过了人类专家。

谷歌于正式官方博客里声称, Gemini借助MMLU基准方式, 致使Gemini能够凭借其推理本领, 在应对难题之际, 更加审慎地思索, 进而相较于单纯运用第一印象, 具备显著的提升。

在这之外, Gemini Ultra于新的MMMU基准测试里, 获得了59.4%的最先进分数, 此基准测试是由多模态任务构成的, 这些任务跨越不同领域, 并且需要经过深思熟虑的推理。

谷歌所做的测试呈现出, Gemini Ultra的性能比先前最为先进的模型还要优越, 与此同时, 在进行对象字符识别（OCR）系统辅助时, 它并不需要从图像里提取文本, 以此来展开进一步的处理。这些基准彰显出双子座与生俱来的多模态性, 并且还表明了双子座具备更复杂推理能力的早期迹象。

谷歌官宣Gemini 1.0，含三个版本，主打多模态能力-第2张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

Gemini在文本和编码等一系列基准测试中的表现

虽然对于AGI或者强人工智能来说, 在某个测试集中超越人类专家, 距离达成目标还相差很远, 但是这仍能够说是在这条道路上所迈出的坚实一步。

原生多模态世界杯直播观看，比GPT-4更强大？

实际上, Gemini的LLM性能展现并非其最为突出的亮点, Gemini真正具备值得予以关注的差异化能力乃是“原生多模态”。

第一, 究竟何为“Gemini’s native multimodality”（Gemini的原生多模态能力）。而其确切涵意又是怎样的。

所谓原生多模态能力, 是指Gemini模型原本就具备的那个能力, 它有着能够直接去理解那样的本事哩, 还拥有可以处理多种各不相同类型数据这下的能力, 并且它在没有额外专门处理或者转换情况下就能达得到。

有人可能会疑惑，那这与GPT-4有何不同？

打个简易的比方, 要是GPT - 4是一位诗人, 他不但擅长于写诗, 而且还会画画, 然而写诗是他所从事的职业, 画画仅仅是他的副业, GPT - 4能够处理文字也就是写诗, 以及图片也就是画画, 可是它主要的还是以文字处理当做强项。

被称作具有“原生多模态能力” 的Gemini，是个诗人、画家领域的“双料人才”, 写诗方面他表现出色, 画画方面同样突出, 不存在某方面比另一逊色的情况, 他可同时去处理文字与图片, 于这两方面都做得很棒, 不存在主从差别之分。

GPT - 4的种种多模态能力, 兴许更多是借助把不同模型的能力整合归拢至一个框架里去达成的, 并非是全部功能都于一个统一的模型之中浑然天成地实现的。身为一个大型语言模型, GPT - 4的主要优化步骤以及训练过程, 皆是围绕着语言理解以及生成所展开的。对于图像处理此项内容, 虽说它展现出了一定的能力, 然而有可能比不上那些专门针对图像处理去作优化的模型。而一个真真确确的本地多模态模型, 会在全部模态之上都开展平衡以及优化的工作。

谷歌官宣Gemini 1.0，含三个版本，主打多模态能力-第3张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

谷歌官宣Gemini 1.0，含三个版本，主打多模态能力-第4张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

谷歌官宣Gemini 1.0，含三个版本，主打多模态能力-第5张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

Gemini的多模态理解能力

由原生所具备的多模态能力, 意味着该模型能够以更自然的方式, 更高效地去处理以及融合多种不同类型的数据, 而这一情况在达成更复杂些的AI应用这个方面, 是具有重要意义的。

当然, 这同样是更靠近人类的理解路径。人类于理解世界之时自然而然地交融了视觉、听觉以及语言等诸多感官信息,一个具备本地多模态能力的AI模型于处理信息之际也运用了相似的综合法子, 这越发接近于人类的理解而认知方式。

全方位“打败”GPT-4

Gemini不只是在模型能力这一方面呈现出了有和GPT-4较量一番的态势, 可以在多模态能力范畴与之一较高下, 并且还在于应用领域之中, 给出的是相对为数更多的选择。

“小模型”

模型系列里, 尺寸最小的Gemini Nano模型, 被设计用来适用于内存受限的端侧设备, 它在多种任务上展现出了出色的性能, 特别是在多模态以及多语言处理方面, Gemini Nano的这些特性让其成为适合在资源受限环境里使用的强大工具。

尽管当下大模型的主要趋向依旧是“依云而生”, 然而在AI日后的商业化布局里, 离线的、个人化的、小型化的端侧模型正愈发受到更多的关注。

高通在过去几个月反复强调自身于端侧生成式AI进行战略布局, 其它众多巨头亦是如此；此时高通推出的最新一代骁龙芯片, 针对成式AI具备强大支持能力；联想提出AI PC概念, 表明末来这一个时段会围绕AI, 对所有有之产品实施大刀阔斧改革。

然而, 硬件设备厂商极为活跃之际, AI厂商对于端侧居然并不怎么关注。就拿百模大战的国内市场来说, 当前仅仅只有个位数的厂商曾正式宣告过自身的端侧小模型了。这其中涵盖了雷军在8月的年度演讲里提及的小米MiLM模型那13亿参数的版本, 还有通义千问在12月1日开源的Qwen-1.8B模型。

在这一领域, 相较于OpenAI而言, 谷歌有着更为强烈的动力去开展端侧小模型的研究, 毕竟谷歌自身拥有Pixel手机以及Android这两项优势。

训练

处于训练Gemini进程里, 谷歌大量运用了自行研发的张量处理单元, 即为TPU v4, 还有TPU v5e。

Gemini在TPU上的运行之时显著且突出地快过早期的、尺寸较为小的以及功能比较差的型号, 这些人工智能加速器是经过定制设计的, 向来都是谷歌人工智能产品的核心所在, 谷歌的这些人工智能产品为诸如搜索、YouTube、Gmail、谷歌地图、Google Play以及Android等领域的数十亿用户供给服务, 它们还让位于世界各个地方的公司能够以经济高效的方式去训练大规模人工智能模型。

谷歌官宣Gemini 1.0，含三个版本，主打多模态能力-第6张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

Google的数据中心里面, 有一排, 是叫做Cloud TPU v5p的AI加速器的超级计算机。

因Gemini出现, 谷歌宣称了TPU系统力度极强的升级Cloud TPU v5p, 它是专门为训练处于前沿位置的AI模型而打造的。

于训练优化范畴, Gemini增添了对模型并行性与数据并行性的运用, 且针对网络延迟及带宽予以了优化。Gemini还采用了Jax和Pathways编程模型, 给复杂数学运算（像机器学习里常见的运算那般）给予了优化的支撑。

Jax极其适用于以高效的方式去执行大规模的数组运算, 这当中的Pathways是指用于管理以及协调大规模训练任务的编程模型或者框架, 借助使用这些工具, Gemini模型的开发者能够运用单个Python进程去协调整个训练过程, 如此一来便能够简化开发以及训练工作流, 与此同时还能借助Jax和Pathways的高效性能。

复杂推理能力

Gemini 1.0具备复杂的多模式推理功能, 该功能能够助力理解复杂的书面信息, 同时还能助力理解复杂的视觉信息, 这种情况使得它在发现大量数据里难以辨别的知识方面拥有独特的能力。

谷歌官宣Gemini 1.0，含三个版本，主打多模态能力-第7张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

批改物理作业

它具备一种卓越能力, 这种能力是通过去阅读、过滤以及理解信息, 然后从数十万份文档当中提取见解, 而此能力将会有助于在许多领域实现新的突破, 这些领域涵盖从科学到金融, 并且是以数字速度去达成突破。

Gemini 1.0 历经训练, 能够同时对文本、图像、音频等予以识别以及理解, 所以它能够更优地领会微妙的信息, 并且能够回答跟复杂主题相关的问题, 这致使它格外擅长阐释数学和物理等复杂学科的推理。

编程

Gemini能够理解高质量代码, 能够解释高质量代码, 能够生成世界上最流行的编程语言（像Python、Java、C++以及Go）的高质量代码。它具备跨语言工作的能力, 它拥有推理复杂信息的能力, 这致使它成为世界领先的编码基础模型当中的一个。

Gemini Ultra在多个编码基准测试里展现出出色的表现, 这些测试涵盖了HumanEval, 它可是用于评估编码任务性能的关键行业标准, 还包括Natural2Code, 这是谷歌内部留存的数据集, 此数据集所使用的是作者产出的源, 并非基于网络的信息。

Gemini能被用以当作更高级编码系统的引擎, 两年之前, 谷歌推出了达到竞赛水平的名为AlphaCode的AI代码生成系统, 如今基于Gemini技术予以开发, 刚刚又研发了AlphaCode 2, 其专门针对竞技编程任务做了优化与增强。

Gemini的下一步规划

虽说谷歌于技术资料以及官方博客里头, 将Gemini大力吹捧得十分神奇, 宛若业已把OpenAI踩于脚下。可是今儿个的发布实际上仅仅是一篇“论文”罢了。而真正具备能力去对标GPT - 4的Gemini Ultra, 要到明年年初才会正式上线呢。

Gemini家族里边排行老二的Gemini Pro, 眼下已然预备着手给谷歌的对话机器人产品Bard给予支持了。

谷歌于博客之中宣称: 自今日起始, Bard会运用Gemini Pro的微调版本拿来开展更具高级性的推理、规划、理解之类的活动。这属于Bard自问世以来最为重大的升级。它会于170多个国家以及地区供给英语版本, 谷歌打算在近期的未来拓展至不同的模式并且支持全新的语言以及地点呢。

然而, 一直到发布稿件的时候, 于bard之上所进行的测定依旧表征为并未升级至Gemini, 并且bard针对Gemini的认知也是极为有限的。

谷歌官宣Gemini 1.0，含三个版本，主打多模态能力-第8张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

提问Bard是否已经升级Gemini

先是Gemini Nano被规划进了Pixel, 接着谷歌会在Pixel 8 Pro里首次进行内置, 后这款手机会支持Recorder应用当中的Summarize等这类新功能, 并且始于WhatsApp去推出Gboard里的Smart Reply, 到明年还会有更多消息应用被推出。

自12月13日起步, 开发者以及企业客户能够借由 Google AI Studio 或者Google Cloud Vertex AI里的Gemini API 获取Gemini Pro。

Google AI Studio这款基于网络的免费开发者工具, 可以借助API密钥迅速构建应用程序原型并启动应用程序。而当需要完全托管的AI平台之时, Vertex AI能够对Gemini定制, 提供完善地数据控制, 并且受益于额外的Google Cloud功能来达成企业安全、安全有关的事项, 还有隐私以及数据治理和合规性。

Android开发人员能够通过AICore, 这是Android 14里提供的新系统功能, 从Pixel 8 Pro此设备开始, 去使用Gemini Nano, 这是谷歌最为高效的设备端任务模型, 进行构建。

除此以外, Gemini已然确定会迅速融入进谷歌的业务里头, 在紧接着的几个月期间, Gemini会现身于更多谷歌的产品以及服务当中, 像搜索, 广告, Chrome还有Duet AI。

谷歌宣称已然已然着手于在搜索里进行试验Gemini, 这使得用户的搜索生成体验也就是SGE变得更为迅速, 针对美国英语延缓降低了40%, 于此同时质量则获得了提升。

需要留意的是, 就谷歌而言, 搜索一直是它的核心业务。Gemini 在谷歌搜索、广告活动里全面大范围深入地展开铺陈架势情况, 极有可能从根本上完全改变往后的广告内容以及营销思维理念逻辑走向标点符号。

在最近一回的工业软件研讨会中, 有一位工业企业的高管向虎嗅吐槽, 声称, 谷歌的竞争对手在互联网上布置了诸多的软文, 然而, 我们并没去购买软文, 如此一来, 这些软文就成为了LLM训练的数据, 进一步沉淀至它的知识库中。在AI的认知里, 我们的竞争对手已然被视作默认的行业标准了。

早在2022年底, 就有人预言了这种现象, 彼时GPT还缺乏联网功能, 而今天Gemini几乎已确定要融入谷歌搜索引擎并彻底改变未来网络搜索逻辑的“SEO is Dead, Long Live LLMO”口号。

正在改变与想要改变世界的人开云真人app在线登录开云正版app下载，都在虎嗅APP

标签： Gemini1.0 谷歌多模态能力 LLM AI模型

本文地址： http://mcluo.com/post/1035.html