打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Google大模型Gemini,全球最强AI模型正式易主?
userphoto

2023.12.08 湖南

关注

作者:KID
编辑:苏子瞻
来源:科技最前线 (kejizqx)

12 月 6 日晚,Google 给近期稍显沉寂的 AI 模型战场扔下了一颗新的炸弹:号称多模态任务处理能力首次超越人类的 AI 模型,Gemini 1.0 正式发布。

在过去的一年里,大模型绝对是科技领域最热的话题之一。OpenAI的GPTs惊艳全世界,微软的Copilot更是先一步渗透进全线产品,因此Gemini一出,这一操作被市场视作是Google在AI大模型领域放出的大招。

具体是什么样重磅的AI模型和工具?一起来看看。  

01
谷歌史上最强大模型Gemini

具体来说,此次谷歌一共带来了Gemini的三个版本:

  • Gemini Ultra:谷歌最大、最强模型,适用于高度复杂的任务

  • Gemini Pro:可扩展至各种任务的Gemini模型

  • Gemini Nano:适用于端侧设备的模型

Gemini发布后,外界最关心的是其对OpenAI的GPT4的挑战。从Google DeepMind产品副总裁EliCollins(伊莱·柯林斯)回答记者提问可以看出,团队一直在对 Gemini 模型进行严格的测试并评估其在各种任务中的性能。

从自然图像、音频和视频理解到数学推理,在被大型语言模型(LLM)研究和开发中广泛使用的 32 项学术基准中,Gemini Ultra 的性能有 30 项都超过了目前最先进的水平。

多模态方面,GeminiUltra在新的MMMU基准测试中也获得了59.4%的SOTA分数。

这项基准测试是由跨不同领域的多模式任务组成,需要大模型进行一个深思熟虑的推理过程。

根据谷歌给出的图像基准测试结果来看,GeminiUltra在没有OCR系统的帮助下,表现优于之前最先进的模型。

02
惊艳全场的Gemini多模态大模型


和市面上现有大模型相比,Gemini从一开始就被创建为多模态的模型,这意味着它可以归纳并流畅地理解、操作以及组合不同类型的信息,包括文本、代码、音频、图像和视频。

比方说,当人类拿起画笔在一张纸上勾勒出一只鸭子,并为它涂上了蓝色。这次AI说道:“这可不是鸭子常见的颜色。”


三个空杯并排放在桌子上,一张蓝色纸团被塞进其中一个杯子里,在人类一番眼花缭乱的操作后,AI准确地猜出:“纸团在最左边的杯子里!”


做一个后仰躲避的慢动作,AI比四周同事都更快知道你在表演《黑客帝国》。


甚至它还能提炼出柑橘和指尖陀螺的共性,这两样的共同之处是都能让人放松。


给它一张手写的物理题,AI不仅能看懂,而且还可以辨别手写答案的对错,在此基础上,它还会对每一个细节步骤进行详解,着实是学生党的得力助手。

03

技术杀手锏

以往创建多模态大模型的方法,通常是为不同的模态训练单独的组件,然后将它们拼接在一起,大致模拟其中的一些功能。这样训练出来的模型虽然有时可以很好地执行某些任务(比如描述图像),但在面对更具概念性和复杂推理的情况下,就会出现表现不佳的结果。

相比较下的谷歌Gemini强调的原生多模态,是指从一开始就对不同的模态进行预训练,然后用额外的多模态数据对其进行微调,以此来进一步完善大模型的有效性。谷歌对此表示:这样的训练方法,有助于Gemini从头开始无缝地理解和推理各种输入,远远优于现有的多模态模型;而且它的功能在几乎每个领域都是最先进的。

具体到模型架构方面,Gemini基于增强的Transformer decoder打造,采用了高效attention机制(如Multi-QueryAttention),支持32k上下文长度。尽管没有透露Ultra和Pro版本的具体参数规模,但技术报告中提到,谷歌使用TPUv5e和TPUv4来训练Gemini。训练Gemini Ultra使用了跨多个数据中心的大量TPUv4。这意味着与谷歌此前的主力大模型PaLM-2相比,Gemini在规模上显著增大。此前,PaLM-2被曝参数规模为3400亿。


据悉,从今天开始,Bard 将使用 Gemini Pro 的微调版本来进行更高级的推理、规划和理解等。这是 Bard 自推出以来最大的升级。


Google的Pixel 8 Pro成为首款搭载 Gemini Nano 的智能手机,它支持录音应用中的“总结”等新功能,并在 Gboard 中推出“智能回复”功能,从 WhatsApp 开始,明年还将推出更多信息应用。

搜索、广告、Chrome和DuetAI等更多的产品和服务,也将注入Gemini的能力。Goole方透露,在搜索中试验Gemini,将享受更快的搜索生成体验(SGE),比如英语搜索延迟降低了 40%,同时在质量方面也有所提高。

从 12 月 13 日开始,开发者和企业客户可以通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 获取 Gemini Pro。

而就 Gemini Ultra 而言,尚处于大规模的信任和安全检查,包括由可信赖的外部团队进行红队测试,并在其被广泛使用前通过微调和人类反馈强化学习(RLHF)进一步完善模型。

OpenAI的GPTs惊艳全世界。

微软的Copilot更是先一步渗透进全线产品。

Gemini一出,号称谷歌迄今为止功能最强大、最通用的大模型。

那么在这一波后,全球最强AI模型是否正式易主?我们静待观察。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
王炸升级!Google 全新大模型赶超 GPT-4,Bard 全面开放,要把搜索彻底颠覆
传谷歌开始小范围测试Gemini:比训练GPT-4算力大5倍,多模态能力大提升
超越GPT4!谷歌大杀器终于来了,最大规模Gemini震撼发布
谷歌大杀器终于来了,真超GPT4,手机直接可用
比 GPT-4 还厉害?Google 发布最强 AI 模型 Gemini
谷歌 Gemini 与 GPT-4 哪家强?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服