2022年11月底,OpenAI发布ChatGPT,2023年3月14日,GPT-4发布。这两个模型让全球感受到了AI的力量。而随着MetaAI开源著名的LLaMA,以及斯坦福大学提出Stanford Alpaca之后,业界开始有更多的AI模型发布。
根据DataLearner官方收集的数据统计,2023年4月份,在大语言模型和图像生成领域有20多个重要的模型发布。完整的2023年4月份模型列表:2023年04月份重要的AI模型列表 | 模型名称、参数大小、类型和发布机构 | 数据学习 (DataLearner)
上图是部分模型展示,数据来源:最近几年AI模型列表 | 参数大小、类型和发布机构筛选 | 数据学习 (DataLearner)
本文将对4月份发布的这些重要的模型做一个总结,并就其中部分重要的模型进行进一步介绍。
2023年4月份业界发布的模型百花齐放,从UC Berkeley发布的Vicuna到MetaAI的SAM,开源AI模型繁荣发展!UC Berkeley、Stability AI、EleutherAI等产出丰富。
2023年4月份,业界发布的重要模型23个,自然语言处理领域的模型13个、计算机视觉领域3个、多模态模型7个。显然,相比较之前,模型的种类更加丰富,也开始从自然语言领域往其它领域发展。这其中最大的是StableLM模型,计划最高参数1750亿,而微软发布的LLaVA模型则是基于MetaAI发布的LLaMA继续开发得到的,因此最大规模650亿。
本文将针对重要的部分模型做一些简单的回顾。
2023年自然语言处理的模型主要是开源模型为主,其中Vicuna-7B可以运行在浏览器侧,表现亮眼。我们将挑选其中重要的几个介绍。
Pythia是EleutherAI在4月3日发布的一系列开源的自回归语言模型。该模型共8个不同的规模,并且在2个不同的数据集上训练(分别是Pile数据集和去重的Pile数据集)。所以共16个模型。这个模型训练的主要目的是结合了可解释性分析和缩放定律,以了解知识在自回归变换器中的训练过程中是如何发展和演变的。
Pythia模型系列完全开源,包括代码和预训练结果,因此在后续的很多模型对比以及微调中都有出现。OpenAssistant、Dolly等模型都有基于Pythia继续微调的版本。
Dolly 2.0是一种基于EleutherAI pythia微调的模型(参数120亿)。在一个新的高质量人类生成的指令跟踪数据集上进行微调,这些数据集是由Databricks员工众包生成的。
这是继Databricks发布Dolly 1.0过去不到一个月时间又一个开源的Dolly模型。不过与Dolly 1.0不同的是,Dolly 2.0是基于pythia模型训练得到。
重点是Dolly 2.0的全部内容都是开源的,包括训练代码、数据集和模型权重,所有这些都适用于商业用途。这意味着任何组织都可以创建、拥有和定制强大的LLMs,可以与人们交流,而无需支付API访问费用或与第三方共享数据。
Dolly 2.0包含了一系列多个版本,最大的参数是120亿,还有70亿、30亿版本:即dolly-v2-12b、dolly-v2-7b和dolly-v2-3b。
不过,普遍评价这个模型表现一般。
Vicuna-7B与FastChat-T5都是由LM-SYS发布的,这是一个由UC Berkeley与其它机构联合成立的一个研究小组。
Vicuna是一个开源的大语言模型,3月底发布了第一个130亿参数的版本。4月7日,70亿参数版本的Vicuna-7B发布,4月12日,Vicuna-7B的预训练结果更新到1.1版本,主要更新重构标记化和分隔符并修复有监督的微调损失计算。
Vicuna-7B的预训练结果只有13.5G,可以在M1芯片的苹果电脑上运行,也有人基于WebGPU做了浏览器的版本。也就是说,它可以轻松在本机上运行。
FastChat-T5是基于Google开源的Flan-T5-XL模型微调的。根据官网提供的数据,FastChat-T5-3B虽然只有30亿参数,但是比Dolly-V2-12B模型更好。
h2oGPT是H2O公司开源的一个类似ChatGPT的应用。是基于EleutherAI发布的GPT-NeoX-20b模型微调的结果。使用的是H2O自己收集的数据集。
h2oGPT的最大特点是具有完全宽松、商业可用的代码、数据和模型。
这两个模型都是由StabilityAI开源的大语言模型。StabilityAI是著名的开源软件Stable Diffusion的开发者,该系列模型完全开源,但是做的是文本生成图像方向。而StableLM是StabilityAI的第一个开源的大语言模型。
StableLM系列包含2种模型,一个是基础模型,名字中包含base。另一种是使用斯坦福Alpaca的微调流程在5个对话数据集上的联合微调得到的结果,名字中包含tuned。
StableVicuna是Vicuna v0 13b的进一步指令微调和RLHF训练版本,它是一个指令微调的LLaMA 13b模型。
除了上面比较知名的模型外,还有几个模型也很重要,只是可能因为尚在发布中。其中比较重要的是Replit家的2个模型:Replit Code V1-3b和Replit Finetuned V1-3b。这两个都是27亿参数,但是基于5250亿tokens的代码数据集训练,根据官方的测试结果,当前阶段,这两个小规模的模型已经超越了所有的开源模型效果了。其水平比650亿参数的LLaMA和120亿参数的Codex效果更好。Replit专注编程领域,且承诺Replit Code V1-3b将会开源。那么,这是一个值得期待的模型。
此外,TOGETHER发布的RedPajama项目也透露了一些新消息,包括70亿参数和28亿参数的两个版本训练模型结果已经超越了同等规模的其它模型。因为RedPajama训练数据是极其庞大的,它的模型也值得大家期待。
4月份,计算机视觉领域的比较有影响力的模型共3个,尽管数量不多,但是相比之前,已经算得上很丰富了,而且模型的影响力都很高。而且MetaAI一家占了2个,看样子真是之前元宇宙的投资出成果了~
SAM全称是Segment Anything Model,由MetaAI在4月5日发布的一个图像分割领域的预训练模型。该模型十分强大,并且有类似GPT那种基于Prompt的工作能力,在图像分割任务上展示了强大的能力!此外,该模型从数据集到训练代码和预训练结果完全开源!真Open的AI!
由于SAM效果非常好,且完全开源,已经有很多项目都在基于这个模型进行改进和应用。是计算机视觉领域近年来少有的开源力作!
2021年4月30日,MetaAI公开了DINO算法,DINO的核心思想是在无需标注数据的情况下,学习图像的有意义表示。通过自监督学习,DINO可以从大量未标注的图像中提取视觉特征,这些特征对于各种下游计算机视觉任务非常有用,例如图像分类、物体检测和语义分割。时隔一年后的2022年4月8日,MetaAI开源了DINO的实现代码和预训练结果。
DINOv2是MetaAI最新开源的计算机视觉领域的预训练大模型。相比较DINO的第一个版本,作者做了很多的修改,使得v2版本的DINO模型性能更加强大。
ControlNet是一种新的神将网络结构,由斯坦福大学的Lvmin Zhang和Maneesh Agrawala提出的可以用来增强扩散模型的方法。主要是基于已有的Text-to-Image预训练模型对特定数据进行微调以更加适合使用者的目的。这个结构最大的特点是可以在比较资源少的设备如个人PC上对大模型进行调整以获得更好的效果。
基于这个方法改进的StableDiffusion是目前应用最广范效果最好的模型。
ControlNet 1.1是ControlNet最新的发布版本,发布于4月14日,相比较最早的ControlNet,它最大的优点是提升了模型的鲁棒性和结果的质量。并且将会增加多个新的模型。是十分值得大家关注的模型。
由于文本生成图像的模型算是多模态领域的模型,所以多模态模型比纯计算机视觉的模型要多,共7个。
LVDM全称Latent Video Diffusion Models,是由香港科技大学与腾讯AI实验室发布的一个视频扩散模型,可以用来做文本生成视频以及视频编辑。
与该模型同步发布的是一个视频编辑工具:VideoCrafter,可以用来做视频生成和视频编辑。
与该模型同步发布的是一个视频编辑工具:VideoCrafter,可以用来做视频生成和视频编辑。从演示结果看,该模型的效果十分好,所以尽管技术细节还未公布,但是已经吸引了很多人的注意。
Stable Diffusion是StabilityAI开源的一系列图像生成模型。它的效果随着模型的迭代也增强。因为是开源的模型,且效果很好,所以一直是大家使用最多的模型。
1.5版本之前的Stable Diffusion因为不控制NSFW内容,一直霸占Hugging Face上流行模型榜单。而之前的2.1版本也一直是大家使用很多的模型。本次发布的Stable Diffusion XL是其最新的版本,根据之前的数据,该模型参数27亿,效果十分逼真。
Whisper是由OpenAI开源的语言识别模型,Whisper JAX则是JAX的实现版本。主要基于? Hugging Face Transformers的Whisper实现。与OpenAI的PyTorch代码相比,Whisper JAX运行速度快了70多倍,是目前最快的Whisper实现。
这是一个被低估的多模态学习的方法。MiniGPT-4是一个可以理解图片的大语言模型,是由开源的预训练模型Vicuna-13B与BLIP-2结合的新模型。十分简单。
MiniGPT-4是分两个阶段训练的。
研究发现,MiniGPT-4具有许多与GPT-4类似的功能,比如生成详细的图像描述和从手写草稿创建网站。MiniGPT-4还有其他新兴功能,包括根据给定的图像撰写故事和诗歌,提供解决图像中显示的问题的方法,以及基于食品照片教用户如何烹饪等。
DeepFloyd IF是由DeepFloyd、StabilityAI和LAION三家协作开发的一个Text-to-Image模型。它使用的是与Google Imagen类似的架构完成的一个图片生成模型。
DeepFloyd IF是一个具有高度照片级别真实感和语言理解能力的新型最先进的开源文本到图像模型。官方宣称,该模型超过了Google的Imagen和Stable Diffusion。
此外,浙江大学发布了AudioGPT模型AudioGPT是一个旨在在口语对话中优秀理解和生成音频模态的系统。具体而言,
微软也发布了一个多模态大模型LLaVA,LLaVA全称Large Language and Vision Assistant,是由微软与威斯康星大学麦迪逊分校教授一起提出的一个多模态大模型。
这些模型由DataLearner官方收集整理,可能忽略了某些重要的模型,欢迎大家从评论区给出建议,我们将持续更新~~
4月份发布的模型,大家可以参考DataLearner的AI模型月报:2023年04月份重要的AI模型列表 | 模型名称、参数大小、类型和发布机构 | 数据学习 (DataLearner)
联系客服