人工智能开窍了！在它的涂鸦里已经有人类思考的痕迹

第一次往岩石上草绘物象的时候，人类实现了认知上的重大飞跃。如今，计算机也在效仿这一过程。

如果让你画一头猪和一辆卡车，你可能会画成这样：

简单。不过，如果让你画一辆“猪卡车”，你作为人类，自然知道要混合两种事物的显著特征，你可能会画成这样：

注意图中卷曲的小猪尾巴；驾驶室的窗有点圆，像一只眼睛；车轮变得像猪蹄，或者反过来说，猪蹄变得像车轮了。如果你画成这样，那么同为人类的我就会作出主观评价：这是提示词“猪卡车”的一种创造性阐释。

一直以来，只有人类才做得了这样的概念急转弯。但现在不同了。上图其实出自谷歌SketchRNN之手，这是一个激动人心的人工智能（AI）系统，是谷歌Magenta项目的一部分。该项目旨在探索AI能否从事艺术创作，由道格·埃克（Doug Eck）领导。

上周，我去山景城的Google Brain团队办公室（Magenta项目团队也在这里）拜访了埃克。埃克聪明随和，为人谦逊。2000年，他从印第安纳大学获得计算机科学博士学位，后投身音乐和机器学习，曾供职于蒙特利尔大学（人工智能的孵化地之一），后进入谷歌，致力于开发Google Music，现在领导Google Brain的Magenta项目。

埃克是怎么想到要构建艺术创作型AI的？其实，这个主意源于一场漫不经心的谈话，“但经过几轮思索，”他说，“大家就开始觉得，‘当然要做了，这很重要。’”

他与同在谷歌的协作者大卫·哈（David Ha，音）写道：SketchRNN的意义不是简单的学画画，而是“以类似于人类的方式，概括抽象概念。”他们想要创造的，不是一台能画猪的机器，而是一台能够识别并输出“象猪一样的特征”的机器，哪怕馈入的关键词并不是猪，就比如上面的卡车。

其中隐含的逻辑是：画画是对世界的抽象。你所画的是泛泛的“猪”，是一个概念，而不是某一头猪。也就是说，大脑存储“”的方式和我们画猪的方式不无关联。在学习画猪的过程中，我们也许能了解人类是如何概括出“像猪一样的特征”的。

这款软件是这样运作的：谷歌构建了一款游戏，名为“Quick, Draw!”让玩家画各种事物：猪、雨、消防车、瑜伽体式、花园和猫头鹰，从而生成一个大型数据库。

通过画画，我们将丰富多彩、纷繁嘈杂的世界压缩成了寥寥数笔。这些简单的笔画构成了SketchRNN的基本数据集。借助谷歌的TensorFlow开源软件库，每个类别的绘画——猫咪、瑜伽、雨——都能拿来训练一种特定类型的神经网络。与之泾渭分明的，是基于照片的AI作品，近期，这类作品屡见于媒体，比如机器创作的梵高风格的照片，或是具有独创性的DeepDream，抑或是给任意形状填充细节，让人一眼就认出那是猫咪等。

用人类的主观感觉来判断，那些作品让人觉得不可思议。其有趣之处就在于，它们类似于人类对现实世界的认知，但从本质上讲，两者并不能划上等号。

相比之下，SketchRNN输出的作品没有什么不可思议之处。但“感觉就是对劲，”埃克告诉我说。“不敢说‘跟人画的一样’，它们给人的感觉就是对劲，不同于那些逐个像素生成的图像。”

这就是Magenta团队的核心见解。“人类眼中的世界并非一格一格的像素。实际上，人们形成抽象概念，并用这些概念代表实际所见。”在描述该研究的论文中，埃克和大卫·哈称如是写道。“很小的时候，我们就会用铅笔或蜡笔在纸上画画，用来表达我们看到的事物。”

凡是人类能做到的，谷歌都想用机器来实现。去年，谷歌CEO桑德尔·皮蔡（Sundar Pichai）宣布了“人工智能为先”的理念。谷歌最初的使命是“整理全世界的信息，使之举世可用且有用”，AI成了这一使命的自然延伸。只不过现在，这个使命略有改动，成了“整理信息，为人工智能所用，再经由人工智能，向人类提供有用的信息”。在谷歌组织并理解特定人类领域的努力之中，Magenta算是比较天马行空的一个。

谷歌所采用的各项工具，可以用“机器学习”一词来概括。机器学习即给计算机编程，馈入带标签的数据，作为训练素材，使机器自学各项任务。一种广为流行的机器学习方法是通过粗略模仿人类大脑神经系统的神经网络来学习。各种节点（人造神经元）相互连接，权重各不相同，对各种输入作出有选择的响应。

近些年，多层级神经网络大展身手，解决了一些棘手难题，尤其是翻译和图像识别/处理领域。谷歌用这些全新的架构，重建了旗下很多核心服务。这些网络模仿已知的人脑运作方式，拥有相互联络的层级，可以识别输入（比如图像）中的不同形态。在低层级网络内，神经元也许只是对像素级别的明暗模式作出响应。高层级网络也许能对狗脸、汽车或蝴蝶等事物做出响应。

采用这类架构与机制构建网络效果惊人。曾经极其艰深的计算难题，现在只要调整训练模型，让图形处理单元跑上一会儿，就能迎刃而解了。正如基甸·刘易斯-克劳斯（Gideon Lewis-Kraus）在《纽约时报》撰文所述，谷歌翻译（Google Translate）是用10年时间建立起来的复杂系统，然而谷歌使用深度学习系统，在短短九个月里就彻底改造了它。“AI系统一夜之间的改进幅度，相当于老系统诞生以来所有改进的总和，”刘易斯·克劳斯写道。

正是因此，神经网络的用途与类型出现爆发式增长。比如SketchRNN就用到了递归神经网络——这种网络专门对付输入序列，而训练素材就是人们描画不同事物时的笔画序列。

简单地说，这种训练就相当于编码：向网络馈入数据（即草绘），网络就会处理内容，并归纳出通用规则。由此形成所有数据的一个模型，描述了网络中各个神经元的倾向，并以数学形式加以存储。

这种配置被形象地称为潜伏空间，又称Z（Zed），其中所存储的，就是猪、卡车或是瑜伽等事物的特征。正如AI研究者们所说，让SketchRNN系统画出它所训练的内容，它就会吐出一头猪、一辆卡车或一种瑜伽体式。所画即所学。

那么，SketchRNN能学到些什么呢？研究人员用人们画的消防车训练网络，使之生成新的消防车，所得结果如下。该模型中有个名为“温度”的变量，可用来调高或调低随机性。在下方的图像中，偏蓝的随机性较低，偏红的随机性较高。

再换成猫头鹰：

最好的例子是瑜伽体式：

它们看上去很像人类的手笔，但绝非出自人类之手，而是按人类草绘的套路重构出来的。这些画的水平有好有坏，但假如你和AI玩《猜猜画画》（Pictionary）游戏，你应该都能猜个八九不离十。

SketchRNN还有一个功能，就是接收人类草绘形式的输入。你馈入一个东西，它就会试图加以理解。比如用猫咪数据训练好一个模型，然后扔进一只三眼猫的绘画，结果会怎样呢？

看到了吗？右边的各个输出（温度变量依然适用）都去掉了第三只眼！为什么？因为通过学习，模型已经知道，猫是三角耳、圆脸，两边各一把胡须，只有两只眼睛。

当然，模型并不懂什么是耳朵，不知道猫的胡须会不会动，甚至不清楚什么是脸，更不知道眼睛能将图像传入大脑，因为光子能改变视网膜特化细胞中视紫红质蛋白的形状。对于画中指向的现实世界，它概不了解。

但它却知道人类是如何表现猫、猪、瑜伽或帆船的。

“我们开始生成帆船画时，模型就会用其他数百个帆船模型进行填充。”谷歌的埃克告诉我说。“我们基本都能看懂，因为模型从所有训练数据中提炼出了柏拉图式的帆船‘理念’，也就是——你听了可能要打我——‘原初’帆船。它不是某艘特定的帆船，但具备了帆船的特征。”

话一出口，他似乎也有点后悔一时口快把话说大了。“哲学家们肯定饶不了我。”他说。“不过尽管过于抽象，但还是能让人看明白。”（《大西洋月刊》杂志常驻哲学家伊恩·博格斯特[Ian Bogost]告诉我，“在哲学上，这是纯粹的内在唯物主义。”）

能够成为人工智能运动的一分子，参与有史以来最激动人心的技术项目，至少对局内人而言——也包括其他不少人——是一桩热血沸腾的事。然而就连道格·埃克这样的人，也有措手不及的时候。

我是说，比如用“下雨草绘”训练一个网络，然后输入一片云朵，结果就会变成这样：

你给模型馈入云朵，这个云朵就会“下起雨来”。这是因为，很多人画雨都是先画云，再画雨点。所以，神经网络看到云朵之后，就会在下方补上雨点（有意思的是，训练数据是一组存在先后顺序的笔画，所以，若你先画雨点，模型就不会再生成云朵图案。）

有趣是有趣，但在人类思维的逆向工程这一长期项目之中，这只是附带项目，还是解开谜团的关键之一？

让埃克感兴趣的是，草绘竟能以如此有限的信息，包含如此丰富的意义。“一个笑脸只要寥寥数笔，”他说，跟精确到像素的脸部照片差远了。但就连三岁小孩儿都能认出那是一张脸，并判断它是高兴，还是悲伤。埃克认为，这是一种压缩，一种编码，SketchRNN先行解码，然后就可以任意地重新编码。

这有点类似于斯科特·麦克劳德（Scott McCloud）对漫画力量的阐释。

“我很支持SketchRNN的工作，非常不错。”OpenAI研究员安德烈·卡尔皮斯（Andrej Karpathy）说，该机构已经成为AI研究的中心传播节点。但卡尔皮斯也指出，他们的模型之中对于笔画的重要性做了很强的假定，这样做的结果是，在开发人工智能这项整体事业之中，其作用就比较小了。

“通常，我们在开发通用模型时，会尽量让模型对数据集的细节一无所知。无论你馈入什么数据：图像、音频、文本或其他，都要能运作才行。”他说。“除了图像以外，其他任何东西都不是由笔画构成的。”

“我也不介意人们作出重大假设、编入模型，并在各自的特定领域内取得卓著成效。”他补充说。

埃克和大卫·哈的系统更类似于会下国际象棋的AI，而不是拿到任何游戏都能找到规则和取胜之道的AI。在卡尔皮斯看来，该系统的涵盖面似乎较窄。

但我们有理由相信，线条画中包含着人类思维的根本。被图画的这种力量所吸引的，并不只有谷歌研究人员。2012年，乔治亚理工大学的詹姆斯·海斯（James Hays）与柏林工业大学的马蒂亚斯·艾斯（Mathias Eitz）和马克·阿莱克萨（Marc Alexa）共同创建了一个简笔画数据集，以及用于鉴定它们的机器学习系统。

他们认为，简笔画是一种全人类通用的沟通形式。具备正常认知功能的人都能如此沟通，也都进行过这样的沟通。“自史前时代起，人们就用类似于简笔画的岩画或洞穴壁画描绘可观世界，”他们写道。“这种岩画的出现比语言早了几万年，如今，所有人都具备画画以及识别画中物体的能力。”

他们提到了《美国国家科学院院刊》的一篇论文，作者是多伦多大学神经科学家德克·沃尔瑟（Dirk Walther）。该论文显示，“简单、抽象的草绘对大脑的刺激效果，与实物对大脑的刺激效果类似。”作者们认为，线条画“捕捉到了自然世界的本质，”虽然从像素层面看，猫咪漫画和猫咪照片完全是两回事。

如果人脑神经元也呈层级化运作，就像神经网络所大致模仿的那样，那么，我们也许能顺着这些画，找到精简后的物体概念——用沃尔瑟的话来说，就是“精髓”——所储存的地方。也就是说，这些画也许能告诉我们，大约10万年前，我们的祖先演变为现代人类的过程中，是如何开始这种全新的思维方式的。不论是在洞穴墙壁上，还是在纸巾的背面，图画所描绘的，也许是从马到“马的特征”的飞跃，从日常经验到符号化的抽象思维的飞跃，现代人类就是在这个过程中诞生的。

从语言、金钱、数学一直到计算本身，当代生活大都源于这一过渡。因此，若草绘能在重要人工智能的创造中发挥重要作用，这也在情理之中。

拉斯科洞窟壁画

当然，对人类而言，草绘是对实物的描绘。我们能轻易理解四条线组成的抽象表征和实物本身的关系。概念是有意义的。对SketchRNN而言，草绘是一串存在先后顺序的笔画，是一个逐渐成形的形象。机器的任务是读取图中所绘事物的精髓，试图以此理解世界的原貌。

SketchRNN团队正在往多个方向探索。他们也许会构建一个系统，通过人类反馈提升其绘画技能；也可以用多种事物的草绘来训练单一模型。又或许，他们会训练出一个专门模型，比如让它识别猪的特征，然后尝试通用化，看它能否生成照片级图像。这样，他们就能使用加州大学伯克利分校创建的神经网络，给猫咪画像填色。

注：这是作者通过上述流程所画的猫。

但他们自己也承认，SketchRNN只是“第一步”，很多东西仍有待学习。这些解码草绘的机器所代表的是人类历史弧线的一部分，而这条弧线很长。人类艺术史的发生发展几乎是技术史的倒置。

在欧洲为《纽约客》杂志采写洞穴壁画时，朱迪思·瑟曼（Judith Thurman）写道，旧石器时代的艺术保持了“2500年基本不变，几乎没有创新或反叛。”她指出，“有文字可考的历史长度只有它的四分之一。”

一位学者告诉瑟尔曼，这种艺术想必能带来深深的满足感，其所处的整体文化环境应该也十分稳定。

计算机，尤其是最新的人工智能技术，正在动摇长期以来有关“人类擅长哪些事”的观念。90年代，人类在西洋跳棋中败给机器，继而是国际象棋。最近则是围棋。

然而，最近AI领域重要研究迭出，这不是因为它突破未知领域的速度之快（虽然确实很快）。对埃克而言，这更多的是因为他们探究的是人类思维的基石，以及更进一步，“我们是谁”这个难题。“艺术的真正核心是基本人性，是人类的相互沟通。”埃克告诉我说。

综观深度学习这项事业，那么多人都在探索人类生活背后的机制——我们如何视物，如何移动，如何谈话，如何识别面孔，如何出口成章，如何演奏音乐——一个轮廓逐渐显现，它不是任何具体的人，而是人类的共有特征。

眼下，它还只能以低分辨率的形式来表现真正的思维，比如漫画或火柴人。但从草绘之中，我们不难看出智能的汇聚过程。

翻译：雁行

来源：The Atlantic

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。