打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
这些令人不安的照片表明AI变聪明了!它在学习根据文字生成图片

在全球所有 AI 模型中,OpenAI 的 GPT-3 最能引发公众的遐想。

虽然它可以仅凭很少的文本来输出诗歌、短篇小说和歌曲,并且成功地让人们相信这是人类的创作。但是,它在同人类对话时还是显得非常“幼稚”。可尽管如此,技术人员依然认为,创造了 GPT-3 的技术可能是通往更高级 AI 的必经之路。

GPT-3 使用大量文本数据进行了训练,那么,假如同时使用文本和图像数据进行训练,会发生什么呢?

艾伦人工智能研究所(AI2)在这个问题上取得了进展,技术人员开发了一种新的视觉语言模型,可以根据给定的文本生成对应图像。

不同于 GAN 所生成的超现实主义作品,AI2 生成的这些图像看起来非常怪异,但它的确可能是一个实现通用人工智能的新路径。

AI“做题家”

GPT-3 在分类上属于 “Transformer” 模型,随着 Google BERT 的成功,该模型开始流行。而在 BERT 之前,语言模型可用性不佳。

它们虽然具备一定的预测能力,但并不足以生成符合语法和常识的长句子。BERT 通过引入一种称为 “masking(遮罩)” 的新技术,使模型这方面的能力得到了大幅加强。

模型会被要求完成类似下面的填空题:

  • 这位女士去___锻炼。
  • 他们买了一个___面包做三明治。

这个想法初衷是,如果强迫模型进行数百万次的这类练习,它是否可能学会如何将单词组合成句子以及如何将句子组合成段落。测试结果表明,模型确实获得了更好地生成和解释文本的能力(Google 正在使用 BERT 帮助在其搜索引擎中提供更多相关的搜索结果)。

在证明遮罩行之有效之后,技术人员试图通过将文本中的单词隐藏,将其应用于视觉语言模型,例如:

  • 一只站立在树木旁的___。(来源:MIT TR)

通过数百万次的训练,它不仅可以发现单词之间的组合模式,还可以发现单词与图像中元素之间的关联。

这样的结果就是模型拥有了将文字描述与视觉图像相关联的能力,就像人类的婴儿可以在他们所学的单词同所见事物之间建立联系一样。

举个例子,当模型读取到下面的图片,便可以给出一个较为贴切标题,如 “打曲棍球的女人”。或者它们可以回答诸如“球是什么颜色?” 之类的问题,因为模型可以将单词 “球” 与图像中的圆形物体关联。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
各种AI模型拿来就能用!五大深度学习模型库大盘点
Vokenization:一种比GPT-3更有常识的视觉语言模型
GPT-4和ChatGPT大比拼,究竟谁胜?
AI写小说、绘画、剪视频,生成式AI更火了!
吴恩达新年公开推荐这个设计师,上千人点赞
解密 BERT
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服