Google大模型Gemini，全球最强AI模型正式易主？

作者：KID

编辑：苏子瞻
来源：科技最前线 (kejizqx)

12 月 6 日晚，Google 给近期稍显沉寂的 AI 模型战场扔下了一颗新的炸弹：号称多模态任务处理能力首次超越人类的 AI 模型，Gemini 1.0 正式发布。

在过去的一年里，大模型绝对是科技领域最热的话题之一。OpenAI的GPTs惊艳全世界，微软的Copilot更是先一步渗透进全线产品，因此Gemini一出，这一操作被市场视作是Google在AI大模型领域放出的大招。

具体是什么样重磅的AI模型和工具？一起来看看。

01
谷歌史上最强大模型Gemini

具体来说，此次谷歌一共带来了Gemini的三个版本：

Gemini Ultra：谷歌最大、最强模型，适用于高度复杂的任务
Gemini Pro：可扩展至各种任务的Gemini模型
Gemini Nano：适用于端侧设备的模型

Gemini发布后，外界最关心的是其对OpenAI的GPT4的挑战。从Google DeepMind产品副总裁EliCollins（伊莱·柯林斯）回答记者提问可以看出，团队一直在对 Gemini 模型进行严格的测试并评估其在各种任务中的性能。

从自然图像、音频和视频理解到数学推理，在被大型语言模型（LLM）研究和开发中广泛使用的 32 项学术基准中，Gemini Ultra 的性能有 30 项都超过了目前最先进的水平。

在多模态方面，GeminiUltra在新的MMMU基准测试中也获得了59.4%的SOTA分数。

这项基准测试是由跨不同领域的多模式任务组成，需要大模型进行一个深思熟虑的推理过程。

根据谷歌给出的图像基准测试结果来看，GeminiUltra在没有OCR系统的帮助下，表现优于之前最先进的模型。

02
惊艳全场的Gemini多模态大模型

和市面上现有大模型相比，Gemini从一开始就被创建为多模态的模型，这意味着它可以归纳并流畅地理解、操作以及组合不同类型的信息，包括文本、代码、音频、图像和视频。

比方说，当人类拿起画笔在一张纸上勾勒出一只鸭子，并为它涂上了蓝色。这次AI说道：“这可不是鸭子常见的颜色。”

三个空杯并排放在桌子上，一张蓝色纸团被塞进其中一个杯子里，在人类一番眼花缭乱的操作后，AI准确地猜出：“纸团在最左边的杯子里！”

做一个后仰躲避的慢动作，AI比四周同事都更快知道你在表演《黑客帝国》。

甚至它还能提炼出柑橘和指尖陀螺的共性，这两样的共同之处是都能让人放松。

给它一张手写的物理题，AI不仅能看懂，而且还可以辨别手写答案的对错，在此基础上，它还会对每一个细节步骤进行详解，着实是学生党的得力助手。

技术杀手锏

以往创建多模态大模型的方法，通常是为不同的模态训练单独的组件，然后将它们拼接在一起，大致模拟其中的一些功能。这样训练出来的模型虽然有时可以很好地执行某些任务（比如描述图像），但在面对更具概念性和复杂推理的情况下，就会出现表现不佳的结果。

相比较下的谷歌Gemini强调的原生多模态，是指从一开始就对不同的模态进行预训练，然后用额外的多模态数据对其进行微调，以此来进一步完善大模型的有效性。谷歌对此表示：这样的训练方法，有助于Gemini从头开始无缝地理解和推理各种输入，远远优于现有的多模态模型；而且它的功能在几乎每个领域都是最先进的。

具体到模型架构方面，Gemini基于增强的Transformer decoder打造，采用了高效attention机制（如Multi-QueryAttention），支持32k上下文长度。尽管没有透露Ultra和Pro版本的具体参数规模，但技术报告中提到，谷歌使用TPUv5e和TPUv4来训练Gemini。训练Gemini Ultra使用了跨多个数据中心的大量TPUv4。这意味着与谷歌此前的主力大模型PaLM-2相比，Gemini在规模上显著增大。此前，PaLM-2被曝参数规模为3400亿。

据悉，从今天开始，Bard 将使用 Gemini Pro 的微调版本来进行更高级的推理、规划和理解等。这是 Bard 自推出以来最大的升级。

Google的Pixel 8 Pro成为首款搭载 Gemini Nano 的智能手机，它支持录音应用中的“总结”等新功能，并在 Gboard 中推出“智能回复”功能，从 WhatsApp 开始，明年还将推出更多信息应用。

搜索、广告、Chrome和DuetAI等更多的产品和服务，也将注入Gemini的能力。Goole方透露，在搜索中试验Gemini，将享受更快的搜索生成体验（SGE），比如英语搜索延迟降低了 40%，同时在质量方面也有所提高。

从 12 月 13 日开始，开发者和企业客户可以通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 获取 Gemini Pro。

而就 Gemini Ultra 而言，尚处于大规模的信任和安全检查，包括由可信赖的外部团队进行红队测试，并在其被广泛使用前通过微调和人类反馈强化学习（RLHF）进一步完善模型。

OpenAI的GPTs惊艳全世界。

微软的Copilot更是先一步渗透进全线产品。

Gemini一出，号称谷歌迄今为止功能最强大、最通用的大模型。

那么在这一波后，全球最强AI模型是否正式易主？我们静待观察。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。