谷歌最强AI模型Gemini发布,三种套件性能全面超越

admin AI新闻 1

在12月6日的时候, 谷歌宣称推出了人工智能模型Gemini, 其觉得这个Gemini是规模最大功能最强大的。此Gemini包含着三种迥异的套件, 分别有Gemini Ultra, 有着Gemini Pro, 还有Gemini Nano。

官方宣文中,概括出这三种套件的突出特性:

双子座超算版本, 其参数量之多堪称最大, 能力之强无人可比, 适宜应用于那些充斥大量繁复困难情况的任务。

Gemini Pro——可扩展至各种任务的模型。

Gemini Nano——高效的设备端任务模型。

针对模型能力这块, 谷歌表明, Gemini Ultra的性能, 于大型语言模型也就是LLM研发里, 在那32个被广泛运用的学术基准之中, 有30个, 超越了当下最为先进的成果。

, Gemini被谷歌首席执行官Sundar Pichai称作, “谷歌截至现在最大, 且能力最强的人工智能模型”。

Google DeepMind的领头人Demis Hassabis兴奋且激动地宣布, 我们团队所取得的成就, 让我内心滋生出无尽的自豪之感。对于我以及不少同事来讲, 通用人工智能也就是AGI, 那可是我们终身都在追逐的目标。我坚定不移地相信, 只要采用正确的方式去加以运用它, AI将会成为历史上最具变革力量、最有价值意义的技术品类之一。Gemini AI恰恰就是朝着这般愿景所跨出的至关重要的一步。

有一款名为 Gemini 的产品, 于 MMLU 基准测试这个测试项目里, 实现超越了人类专家这种情况, 且其得分率达到并超过了 90%。

用于评估大型语言模型在语言理解、推理、阅读理解以及常识推理等方面能力的主流评测数据集涵盖了GLUE、SuperGLUE、SQuAD、CommonsenseQA、CoQA、LAMBADA等等。

MMLU也就是大规模多任务语言理解, 是个测试集, 它结合了数学、物理、历史、法律、医学以及伦理学等57个科目。和其他测试集相比, MMLU在广泛性与深度方面更强, 它借助大量且多样的任务, 来测试AI模型理解自然语言的能力, 尤其是在复杂又多变的真实世界场景里的表现。这让MMLU成了极具挑战性的评测框架, 能全面评估并推动大型语言模型的发展。

446158_202312071110552.jpg

全方位超越GPT?

双子座号称, 在MMLU测试集那儿, 取得32Shot的思维链CoT结果, 把5Shot的GPT - 4给击败了?

446158_202312071110553.jpg

在技术报告当中, 也清晰明确地标注、说明了于同等的五样本也就是(5-shot)这种情况下的性能测试相关数据, 我们所目睹、见到的实际情形是, gemini依旧是落后于GPT-4差不多3个百分点!

于关键的性能测试项目, 也就是大规模多任务语言理解MMLU那儿, 宣传之时运用了一条极为夸张的斜率曲线, 宣称gemini以90%的比例大幅领先GPT - 4的86.4%, 具体如位于下图左侧的曲线所示。

446158_202312071110554.jpg

JeffDean作出解释, 这个数据事实上是以如此目的为导向呈现google的CoT方法先进性, 即, 我们持有这样的观点, 把让社区知晓我们所研发的全新CoT方, 法拿去做比较, 这实乃一件饶有趣味之事。

标签: AI模型 Gemini 谷歌 性能测试 MMLU

发布评论 0条评论)

还木有评论哦,快来抢沙发吧~