打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
打破次元壁,融合自然语言与视觉 | MixLab 人工智能

#DALL·E 和 CLIP#、#OpenAI#

DALL·E 和 CLIP

DALL·E 可以基于文本直接生成图像;

CLIP 则能够完成图像与文本类别的匹配。

OpenAI 联合创始人、首席科学家 Ilya Sutskever 表示:人工智能的长期目标是构建「多模态」神经网络,即 AI 系统能够学习多个不同模态的概念(主要是文本和视觉领域),从而更好地理解世界。

而 DALL·E 和 CLIP 使我们更接近「多模态 AI 系统」这一目标。

自带魔法棒的 DALL·E

→ 以下是Mixlab 多模态专栏作者:大铮博士的部分专栏内容。今天,我们主要聊聊 DALL·E,如果大家感兴趣,欢迎文末留言,我们再更新关于 CLIP 的介绍。

全文阅读:《自带魔法棒的 DALL·E》

CHUNFANG:大家最近在聊的热门词儿 DALL·E 是什么?具备什么功能?

大铮:DALL·E 能按照文字的描述,画出十分自然的图像。

目前的模型对于选词比较敏感,官方释出的例子是类似完形填空的形式,给句子中的名词位置挖了空,并提供了候选的词汇。

我们选择了一个拟物的句子来展示DALL·E的能力。我们来看几个例子:

第一个句子是:“一个长得像猪的闹钟”。

于是,DALL·E 生成了这样的图片:


第二个句子是:“一个长得像猪的手提包”:


接下来我们把 “猪” 换成 “桃子” :


最后我们看看 “桃子风格的,皮质扶手椅”:


在这里我们看到了一件有意思的事情:对于闹钟,手提包这些生活中本身就有各种形式的物体,DALL·E会生成形状各异的物体,且都很好得捕捉到了物体本身的特性


比如闹钟的表盘和手提包的背带。而我们却没有看到长得像桃子的皮质扶手椅,DALL·E在这里采用的外观特性是桃子特有的粉色。

除了拟物,DALL·E 可以做的还有更多,画油画,设计服装,布置房间,画emoji,等等。mixlab对此有更多介绍,或者你可以直接在openAI的官网试一试。

https://openai.com/blog/dall-e/ 



“我想去未来看看”

专栏作者:大铮

复旦大学 | 计算机应用技术在读博士

研究:机器学习、深度学习、媒体大数据分析

欢迎大家加群告诉我们,你喜欢和关注的主题
:只要关注人数足够多,
Mixlab 随时为大家特邀发起 『 各类专题内容或者线上、线下专场讨论』!
(编辑:春FANG)


一个人的探索有些孤单,
一群人的探索会更有意思。

  更多有趣的智能工具分享
在这里 (扫码)!

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
首次发现!AI脑回路演化向人类更进一步,OpenAI最新研究引热议,有学者评价:太吓人了
人工智能“干掉”程序员后,又对艺术家下手了
AI 图像生成10年,一些值得记住的论文
多模态图像版「GPT-3」来了!OpenAI推出DALL-E模型,一句话即可生成对应图像
电厂丨社交网络刷屏的AI作画,它来自达利和WALL · E
真实世界的人工智能应用落地——OpenAI篇
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服