打破次元壁，融合自然语言与视觉

#DALL·E 和 CLIP#、#OpenAI#

DALL·E 和 CLIP

DALL·E 可以基于文本直接生成图像；

CLIP 则能够完成图像与文本类别的匹配。

OpenAI 联合创始人、首席科学家 Ilya Sutskever 表示：人工智能的长期目标是构建「多模态」神经网络，即 AI 系统能够学习多个不同模态的概念（主要是文本和视觉领域），从而更好地理解世界。

而 DALL·E 和 CLIP 使我们更接近「多模态 AI 系统」这一目标。

自带魔法棒的 DALL·E

→ 以下是Mixlab 多模态专栏作者：大铮博士的部分专栏内容。今天，我们主要聊聊 DALL·E，如果大家感兴趣，欢迎文末留言，我们再更新关于 CLIP 的介绍。

CHUNFANG：大家最近在聊的热门词儿 DALL·E 是什么？具备什么功能？

大铮：DALL·E 能按照文字的描述，画出十分自然的图像。

目前的模型对于选词比较敏感，官方释出的例子是类似完形填空的形式，给句子中的名词位置挖了空，并提供了候选的词汇。

我们选择了一个拟物的句子来展示DALL·E的能力。我们来看几个例子：

第一个句子是：“一个长得像猪的闹钟”。

于是，DALL·E 生成了这样的图片：

第二个句子是：“一个长得像猪的手提包”：

接下来我们把 “猪” 换成 “桃子” ：

最后我们看看 “桃子风格的，皮质扶手椅”：

在这里我们看到了一件有意思的事情：对于闹钟，手提包这些生活中本身就有各种形式的物体，DALL·E会生成形状各异的物体，且都很好得捕捉到了物体本身的特性。

比如闹钟的表盘和手提包的背带。而我们却没有看到长得像桃子的皮质扶手椅，DALL·E在这里采用的外观特性是桃子特有的粉色。

除了拟物，DALL·E 可以做的还有更多，画油画，设计服装，布置房间，画emoji，等等。mixlab对此有更多介绍，或者你可以直接在openAI的官网试一试。

https://openai.com/blog/dall-e/

“我想去未来看看”

专栏作者：大铮

复旦大学 | 计算机应用技术在读博士

研究：机器学习、深度学习、媒体大数据分析

欢迎大家加群告诉我们，你喜欢和关注的主题

：只要关注人数足够多，Mixlab 随时为大家特邀发起『各类专题内容或者线上、线下专场讨论』！

（编辑：春FANG）

一个人的探索有些孤单，

一群人的探索会更有意思。

更多有趣的智能工具分享

在这里（扫码）！

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。