谷歌最强AI模型Gemini发布，三种套件性能全面超越

admin AI新闻 2026-06-11 29

在12月6日的时候, 谷歌宣称推出了人工智能模型Gemini, 其觉得这个Gemini是规模最大功能最强大的。此Gemini包含着三种迥异的套件, 分别有Gemini Ultra, 有着Gemini Pro, 还有Gemini Nano。

官方宣文中，概括出这三种套件的突出特性:

双子座超算版本, 其参数量之多堪称最大, 能力之强无人可比, 适宜应用于那些充斥大量繁复困难情况的任务。

Gemini Pro——可扩展至各种任务的模型。

Gemini Nano——高效的设备端任务模型。

针对模型能力这块, 谷歌表明, Gemini Ultra的性能, 于大型语言模型也就是LLM研发里, 在那32个被广泛运用的学术基准之中, 有30个, 超越了当下最为先进的成果。

, Gemini被谷歌首席执行官Sundar Pichai称作, “谷歌截至现在最大, 且能力最强的人工智能模型”。

Google DeepMind的领头人Demis Hassabis兴奋且激动地宣布, 我们团队所取得的成就, 让我内心滋生出无尽的自豪之感。对于我以及不少同事来讲, 通用人工智能也就是AGI, 那可是我们终身都在追逐的目标。我坚定不移地相信, 只要采用正确的方式去加以运用它, AI将会成为历史上最具变革力量、最有价值意义的技术品类之一。Gemini AI恰恰就是朝着这般愿景所跨出的至关重要的一步。

有一款名为 Gemini 的产品, 于 MMLU 基准测试这个测试项目里, 实现超越了人类专家这种情况, 且其得分率达到并超过了 90%。

用于评估大型语言模型在语言理解、推理、阅读理解以及常识推理等方面能力的主流评测数据集涵盖了GLUE、SuperGLUE、SQuAD、CommonsenseQA、CoQA、LAMBADA等等。

MMLU也就是大规模多任务语言理解, 是个测试集, 它结合了数学、物理、历史、法律、医学以及伦理学等57个科目。和其他测试集相比, MMLU在广泛性与深度方面更强, 它借助大量且多样的任务, 来测试AI模型理解自然语言的能力, 尤其是在复杂又多变的真实世界场景里的表现。这让MMLU成了极具挑战性的评测框架, 能全面评估并推动大型语言模型的发展。