Mini-Gemini开源，媲美GPT-4V，人人可玩

admin AI新闻 2026-06-06 32

详细来讲, Mini - Gemini给出了从2B小杯开始, 一直到34B超大杯的各异选择。

凭着超乎寻常的图文理解能力, Mini - Gemini在好些指标方面, 直接比得上Gemini Pro, GPT - 4V。

Mini-Gemini开源，媲美GPT-4V，人人可玩-第1张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

当下而言, 研究队伍把Mini - Gemini的代码予以开源, 将其模型也进行开源, 还把数据都实施了开源。

更加有意思的是, 具备超强玩梗能力的Mini。Gemini线上Demo已然发布, 每一个人都能够着手进行试玩。

Mini - Gemini Demo被放出之后致使受到了广大网友的关注, 在经过一番「尝鲜」这样的行为之后, 有人持有这样的一种观点认为: Mini - Gemini跟商业模型之间的差距并不是很大！

Mini-Gemini开源，媲美GPT-4V，人人可玩-第2张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

为何这么说？

01 图片理解天花板

当前，绝大多数多模态模型仅支持低分辨率图像输入和文字输出。

在实际存在的场景当中, 诸多的任务都要求对具有高清晰度的图像展开解析, 并且是以图像的形态予以展现。

比如说, Mini - Gemini具备看懂面包九宫格图片那样的教程的能力, 而后还能够开展如同亲手指导一般的教学。

Mini-Gemini开源，媲美GPT-4V，人人可玩-第3张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

照一张苹果店Mac电脑的信息图, Mini - Gemini可以把两类尺寸的Mac不一样的参数予以对比。

有网友看过后表示，「妈妈再也不用担心我的生活了」。

Mini-Gemini开源，媲美GPT-4V，人人可玩-第4张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

更加关键的是, Mini - Gemini在保持极为强大的图像理解以及推理能力的情形下, 还开启了图像的生成能力, 恰似GPT与生成模型的组合。

下面，让我们通过几个例子来更直观地感受这种能力：

推理再生成，更精准了

还记得谷歌Gemini的官方演示视频么？

在用户给出两个毛线团, 并且提出能用它们做什么这个问题的情况下, Gemini能够识别出图片里的内容, 进而给出与之相应的建议。

Mini-Gemini开源，媲美GPT-4V，人人可玩-第5张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

Mini-Gemini开源，媲美GPT-4V，人人可玩-第6张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

在我们将相似的输入送往Mini - Gemini时, 它将会给出怎样的回答呢, 这是个问题。

Mini-Gemini开源，媲美GPT-4V，人人可玩-第7张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

能够发觉, Mini - Gemini同样是能够将图片里的元素辨认出来的, 而且还能给出合乎情理的建议, 与此同时, 生成了一只与之对应的毛线小熊。

Mini-Gemini开源，媲美GPT-4V，人人可玩-第8张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

凭借一些抽象的多模态指令, 致使模型给出推理, 进而生成恰当的图片, 这般操作仿若GPT与DALLE3的联动！

紧接着, 让Mini - Gemini从事它最为拿手的推理, 以及图片理解这两项事情, 瞧瞧它究竟会有怎样的表现。

比如开云app官方入口网站，理解图片中的矛盾点并举一反三。

若将仙人掌输入冰川里, 它会对其中的矛盾予以解释, 并且生成一张图片, 图片内容是热带雨林中的北极熊:

Mini-Gemini开源，媲美GPT-4V，人人可玩-第9张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

图片展现出了仙人掌的典型生存地方, 和冰的存有之间的视觉上的矛盾, 原因在于在沙漠那种环境里, 自然状况下是不会有冰出现的。

Mini - Gemini, 正是因为晓悟了这般矛盾的要点, 所以才造就出了一张有着北极熊现身于热带雨林场景的图片。

这种并置营造出一种引人注目的、超现实的视觉效果, 它对观众的期待发起挑战, 还有可能引发人们针对气候变化、环境适应或者不同生态系统融合方面的思考。

与此同时, 就如同GPT与DALLE3那令人称奇的相互结合一般, Mini - Gemini的“推理生成”这一功能, 能够在多轮对话期间, 借助简单指令去生成连环小故事。

比方说开云真人官方下载，让它根据用户输入讲一个贵族小老鼠的故事。

Mini - Gemini会依据前文所呈现的文字去生成结果, 同时会结合用户输入展开推理, 在维持一致性的状况下, 针对图片予以修改, 从而让其更契合用户提出的要求。

Mini-Gemini开源，媲美GPT-4V，人人可玩-第10张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

Mini-Gemini开源，媲美GPT-4V，人人可玩-第11张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

诚然, Mini - Gemini, 对于多模态模型的传统技能, 图片理解, 同样不在话下。

要是假设设定让那个模型去领会明白输入的曲线图所具备的数学方面的意义, 而且是那种高斯分布的意义, 随后还要使得它运用代码去重新呈现出这张曲线图。

经过运行所生成的代码, 模型能够以高质量的状态去还原曲线图, 由此节省了复现所需要的时间。

Mini-Gemini开源，媲美GPT-4V，人人可玩-第12张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

Mini-Gemini开源，媲美GPT-4V，人人可玩-第13张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

超会玩梗

又或者, 让Mini - Gemini去理解梗图, 凭借其具备的强大OCR能力, 以及推理能力, 进而能够准确地把笑点指示出来。

一张将麦当劳P成GYM表情包，外加对话图世界杯直播，搞笑点在哪？

Mini-Gemini开源，媲美GPT-4V，人人可玩-第14张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

Mini - Gemini能够精准领会图里讽刺意味, 且给出了恰当的阐释。

Mini-Gemini开源，媲美GPT-4V，人人可玩-第15张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

Mini-Gemini开源，媲美GPT-4V，人人可玩-第16张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

另外, 有这样一张梗图, 那就是当某媒体宣称AI会接管世界之时, 实际上呢, 我的神经网络连猫都没能识别出来。

Mini-Gemini开源，媲美GPT-4V，人人可玩-第17张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

Mini - Gemini是能够被理解的, 它讲的是AI出现错误的事例, 而且这和公众所接收到的预期并非相同。

Mini-Gemini开源，媲美GPT-4V，人人可玩-第18张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

图中细节的幽默之处，它都能get得明明白白。

Mini-Gemini开源，媲美GPT-4V，人人可玩-第19张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

高超清晰度且繁杂的众多图表理解, 以及归纳, 同样是轻松之事, Mini-Gemini直接瞬间转变为打工者效率提高的超级外挂。

Mini-Gemini开源，媲美GPT-4V，人人可玩-第20张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

Mini-Gemini开源，媲美GPT-4V，人人可玩-第21张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

复杂得很的英文图表, 读起来特别费脑子? 它把内容直观地用我们的中文整理出来 —— 「比较母鸡是怎样在不同笼养系统里承受平均疼痛天数的」。

Mini-Gemini开源，媲美GPT-4V，人人可玩-第22张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

02 技术细节

上述演示里头, Mini-Gemini达成这般出众效果的方式究竟是怎样的呢?

Mini-Gemini开源，媲美GPT-4V，人人可玩-第23张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

有一个论文的地址是 , https://arxiv.org/pdf/2403.18814.pdf。

最为高深的道理往往是极其简洁的, Mini - Gemini的整个思考脉络并非晦涩难懂。当中的gemini（双子座）所传达的是借助视觉双分支的信息挖掘这般行径（miraing - info in gemini）来处理高清图像理解方面的难题。

而其中的核心在于三点：

（1）用于高清图像的双编码器机制；

（2）更高质量的数据；

（3）训练阶段结合生成模型数据拓展。

具体来讲, Mini - Gemini把传统一直使用的ViT当作处于低分辨率状态的Query, 并且还运用卷积网络也就是ConvNet, 将具备高分辨率的图像编码成为Key以及Value。

在用Transformer里常常会用到的那种Attention机制, 去挖掘每一个低分辨率的Query所对应的高分辨率区域。

在保持最终视觉Token数量不发生改变的情形之下, 着手去提升针对高清图像的响应, 如此便保证了在大语言模型（LLM）里, 对高清图像能够进行高效编码。

非常值得一提的是, 因为高分辨率分支卷积网络被使用, 所以能够依据需要对图像所需要的分辨率去进行自适应调整, 结果便能遇强则强。

对于图像生成的那一部分, Mini - Gemini借助了SDXL, 运用LLM推理之后生成的文本, 将两个模型连接起来, 这类似于DALLE3的流程。

Mini-Gemini开源，媲美GPT-4V，人人可玩-第24张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

针对数据这个所谓的“万金油”, Mini - Gemini 进一步展开了收集行动, 对训练数据的质量予以优化, 还增添了与生成模型相结合的文本数据, 将其用于进行训练。

以仅仅运用2-3M数据的程度, 切实达成了针对图像理解、推理、还有生成的统一流程。

在各类Zero-shot榜单当中, Mini-Gemini丝毫不比那些动用大量数据经大厂训练而产出的模型差, 真可谓是「平、靓、正」！

媲美Gemini Pro和GPT-4V

看得出, Mini - Gemini给出了各式各样普通版本、高清版本的模型, 而且它涵盖了从 2B 的小杯一直到 34B 的超大杯。

在相似参数量的情况下, 各个版本都取得了领先的效果, 并且在许多指标上, 甚至超越了Gemini Pro和GPT-4V。

Mini-Gemini开源，媲美GPT-4V，人人可玩-第25张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

03 人人在线可玩

值得一提的是, Mini - Gemini具备图像理解能力, Mini - Gemini具备图像生成能力, Mini - Gemini已经推出了Demo, 是那种能够在线与自定义图像进行对话的Demo。

其操作极为简便, 仅需直接与所输入的图像或者文字展开对话就行, 欢迎前来交流！

Mini-Gemini开源，媲美GPT-4V，人人可玩-第26张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

标签： Mini-Gemini 开源模型图像理解生成能力在线可玩

本文地址： http://mcluo.com/post/1200.html

版权声明：除非特别标注，否则均为本站原创文章，转载时请以链接形式注明文章出处。

上一篇AI vs 人类：谷歌AlphaGo再战柯洁，人工智能真能超越人类大脑？

下一篇ChatGPT热度飙升，微软谷歌等大厂纷纷入局

发布评论（0条评论）

还木有评论哦，快来抢沙发吧~