3.3.1 视觉方式拓展：视觉方式的生理基础

视觉方式的概念

“视觉方式”的概念意味着我们的“看”并不是单纯的，“看”是一种方法，是一种方式。我们不是用这个方式在看，就是用那种方式在看。而且每个人的看的方式有其相通之处，也往往有其个性特征。看并不是一个自然而然的过程，而是一种积极的建构性的行动。我们进的观看方式、观看能力，首先是长期的生命进化和自然选择的结果，而进入文明史以来，人类的文化又深深地介入了观看，影响了观看。因此，观看也是可以塑造和训练的，即使一定程度上先天的视觉方式，也是可以进行研究、加以拓展和重塑的。

视觉方式的生理基础

11世纪初的阿拉伯医圣阿维森纳说“眼睛好比一面镜子，看得见的东西好比镜子里的东西。”

眼睛究竟是不是镜子？如果是一面镜子，这是一面怎样的镜子呢？苍蝇和蜻蜓或者三叶虫们会同意这种说法吗？

达尔文曾经给他的一位朋友写信赞叹眼睛的精妙程度，几乎是他的进化论理论所能达到的最不可思议的“近乎荒谬”的程度。确实是，进入晶状体的光线能够准确地聚焦在视网膜上，而瞳孔的开合能够控制进入的光线的多少。阿维森纳错了，我们的眼睛其实并不像镜子更像照相机，而且这台照相机还是数字照相机——毕竟我们不需要像更换柯达胶卷一样地更换我们的视网膜——我们的视网膜只是一个阵列的感光元件，一个生理CCD或CMos，它负责把光电信号传输给大脑中的视觉神经，最后“看到了什么”是在大脑那里成像的，就像我们在电脑屏幕上看到了物像。此时，同一个视网膜这个CCD已经在忙着承担最新的任务。

而且达尔文已经意识到：从最原始的眼睛到最完美的眼睛存在“无数等级” ，其中每一个如此微小的变化都为拥有微妙变化形式的有机体提供了生存优势。当然他这么说，主要是为了否定“智慧设计论”者的断言——他们断言如此精妙的眼睛不可能是进化出来的。当达尔文这么说的时候，他并不拥有非常多的证据，而只是一个才华横溢的理论猜想。但是今天我们已经有非常多的证据了：眼睛的进化，是一部可歌可泣的史诗。

进化生物学家们曾经以为，世界上各种各样的的动物多种多样的眼睛是各自独立的进化出来的，但是像目前更新的研究表明，每一种有眼睛的动物，都来自一位共同祖先的最原始的视觉蛋白。

我们这位共同祖先已经拥有感光细胞，它可能是一支单细胞眼虫。这个感光细胞可能昼夜节律。然而，“成像视觉”还没有进化出来，还看不到形状或颜色，但能够确定外面是亮还是暗。它只能完成非定向光接收。通过仅监测环境光强度，在水里的可以控制深度，穴居免得被太阳晒死。这点点感光能力的差别可是赋予了它明显的生存优势。今天科学家恒星海葵和淡水水螅身上也发现了这种简单的视蛋白基因。水螅没有眼睛，但在强光下会收缩成一个球。

下一场更难的考试是“定向感光”。光感受器的方向性与身体方向的变化相结合，这些物种出现了趋光性，使动物可以向光移动或寻找黑暗的避难所。

那么显然方向性变得足够窄的时候，方向的变化就更敏锐。我们用长焦镜头，对面那个美女稍微走两步你就拍不到着。要是用一个鱼眼镜头，她就是狂奔你也来得及拍到她。显然长焦镜头比鱼眼镜头对于角度来说更敏感。

于是，在光敏感点周围形成了一个凹坑，变成杯眼。涡虫和原始蜗牛可以稍微区分光的方向和强度，因为它们呈杯状、色素沉着的视网膜细胞可以保护感光细胞免受所有方向的照射。一些扁虫有一对大杯形眼睛，每个眼中都有许多视网膜细胞。而另一些则有很多个较小的眼杯，每个眼杯中甚至只有一个视网膜细胞。这就分化出了两种基本解决方案的：单眼和复眼。

如此简陋的视觉器官至今仍被水母、扁虫等原始群体所使用，足以让他们以更大的优势生存下来。随着眼窝的加深和感光细胞数量的增加，视觉信息会越来愈精确。

最终，坑的开口可能会越来越窄，形成一个可供光线进入的小孔，就像针孔相机一样。这是一大创新，今天在鲍鱼和鹦鹉螺身上发现了没有镜片和角膜的针孔照相机眼睛。这是第三级考试：低分辨率视觉，已经具有立体视觉，足够防止碰撞，足够让视力模糊的猎物从视力模糊的猎人眼皮底下逃脱。

沙虫王：注意眼罩，但没有镜片。这为动物提供了一些空间信息，尽管它的视力很差。然而，它是一种掠食者。

鲍鱼和鹦鹉螺的眼睛有针孔但没有角膜

视网膜在发育，不断提高CCD的像素。而在前面，眼窝的前段，针孔相机的小孔上长出了晶状体。箱形水母就是这么做的，不过它晶状体眼聚焦不清，其实它也用不着---清晰聚焦导致太大的数据处理量，而它没有脑子。水母的眼睛直接将信息传递给肌肉，而无需大脑提供的中间处理。

三叶虫的晶状体是一种方解石，但是后来更高级的“镜头”是神奇的透明的晶体蛋白做成的。

所以，下一步的进化是调焦功能的出现。有的靠移动晶状体，通过利用虹膜括约肌，一些物种来回移动晶状体。有的靠晶状体有弹性地变形（当变形功能丧失，无法聚焦在视网膜上，我们就近视或者远视了）。晶体蛋白也是体内最稳定的蛋白质，可以连续使用数十年（白内障是晚年晶体蛋白变质引起的——镜头被磨砂了）。

这时候，大约5.4万年前的寒武纪，高分辨率视觉出现了。这时候，进化露出了它残忍的面目，进化的目标只是活下去——这就是刘慈欣的“黑暗森林法则”——眼睛的发展的唯一目的是：成为好猎人，避免成为猎物。

精准的视觉使动物成为活跃的猎人，捕食者通常将眼睛放在头部的前面，以便更好地感知猎物。被猎食物的眼睛往往在头部的一侧，提供广阔的视野，以便从任何方向检测捕食者，及时跑路。一些蜘蛛，尤其跳蛛和狼蛛已经长出了极好的眼睛，可以在向前方向进行高分辨率视觉。

寒武纪之前，软体生物们温顺而懒散在海中游荡，那是生命的田园牧歌时代。眼睛的发明带来了一场进化军备竞赛。一个更加残酷的地球。

在37个多细胞动物门类中，只有6种进化出了眼睛，但有眼睛的这六种占了地球动物的96%，成为地球上最成功的动物。对猎物的探测与追捕、捕食者的探测与逃跑、配偶识别与视觉交流都因为高分辨率成为可能。蜜蜂和蝴蝶的花卉检测和鸟类这些种子食客们的种子检测也是明显依赖于高分辨率的眼睛。因此，它们也不得不运动得更快。

眼睛之路并没有就此停止。有些物种进化出了在紫外线下看东西的能力，有些鱼类进化出双晶状体，这使得它们可以同时看到水面的上方和下方。

我们人类双眼向前，虽然我们后来改口说我们“人性本善”，但我们是成功的掠食者。双眼视差建立了立体视觉。我们没有像苍蝇一样长着复眼，我们也没有像鱼一样把眼睛长在两旁。除了发育出镜头盖--眼帘，我们还发育出镜头清洁剂--泪腺。

选择性的眼睛

达尔文理论成功了。眼睛的每一步升级都带来巨大的竞争优势。但是这样一来，眼睛提供给神经系统的信息量和速率随着每个更高类别的行为急剧增加。每次升级，信息速率增加几个数量级，于是你就需要一个更大的大脑，是眼睛促成了大脑的发展。

但是我们的眼睛比大脑设计得更好，眼睛提供给大脑的信息太多，以至于大脑对付不过来了。如果要处理这么高帧率和高像素的眼睛提供的数据，我们的大脑得有一座建筑这么大。偏偏大脑又特别高能耗，为了供得起这样豪华的大脑，先别说骨骼扛不住，我们得猎食多少能量才养得起它！

所以我们经常“视而不见”。我们其实看了，但是我们不知道我们看到了。我们其实“看了”，但没有“看出来”。光线和图像落在我们的视网膜上并且传输给大脑，但大脑选择忽视，就像导师没有及时回你的微信。她不能不这么做，否则算力跟不上。和我们的屏幕一样，大脑使用压缩算法，它不会给我们看RAW原始图像。它选择性地观看，只看到自己需要看到的，只愿意看到自己想要看到的。

作为领导，大脑是很累的。它不光得管看，还得听，还得说话，还得认路走路，不把一些呼吸、心跳之类工作设定为无意识地自动进行，领导哪里忙得过来呢？

人脑总是采用省力模式，所以大脑还想出更厉害的一招，今天的人工智能科学家们刚刚悟出这一招，那就是要使用“预训练模型”。“预训练模型的提出就是为了建立原任务和目标任务的桥梁，先在多元任务上预训练获得通用知识，然后使用少量目标任务上的标注数据进行微调，使得微调的模型能够很好地处理目标任务”。也就是用较低成本采集数据，在预训练中先获得正确的知识，养成良好的习惯，到了执行特定任务的时候，部分工作由这些习惯自动执行，这使得任务的负担变轻。视觉中的预训练模型，似乎就是我们这里所说的视觉方式。

我们去火车站接人，火车站出口处万头攒动，我们一眼就认出要迎接的人，远远地就开始激动地招手。反之，如果我们是要去揍一个人，也会一眼就认出他来--别忘了我们拥有的是一双猎人的眼睛。我们的眼睛是一种带面孔识别和预对焦功能的相机，极其智能。这种相机在最近二十年才刚刚开发出来。

而在眼睛不够用的地方，领导也会出来救场。如果你看到一棵大树的左边露出鹿角，右边露出鹿尾巴。大脑会坚定地判断树后面有一整只肥鹿。这也是一种省力的方式，根据我们过去的经验预测我们将看到的内容，然后将这些预期巧妙地投射到我们所看到的内容上。雾气朦胧中和幽暗中，我们都看到了伊人在水一方，你确实看到了你想看到的东西。这个后来被称为完形心理学。我们在本课程的视错觉环节中还会遭遇“卡尼萨三角形”。

两岁的孩子拿笔胡乱转圈涂鸦，但是他会告诉你他正在画的是“房子”或“爸爸”，他不会说我在画“线”或者“红色的线”。三岁的孩子画了两张画，这两幅画看起来几乎是一模一样的，都是一个圆圈，但是他会告诉你，这张是一个水果，那一张是一个气球。绘画总是在画某物，看东西也总是在看某物。观看总是紧紧连接着识别和判断，必须在观看的同时识别出“这是什么东西”，这是本能----我们控制不住地把某个图形或者看成鸭子，或者看成兔子---这是猎人和猎物的本能。对不起，进化生理学让抽象画家失望了，号称只看得到线条、色块和纹理，而不去进一步判定“这是什么东西”，这种努力是很晚以后才开始的游戏。

在原始人那里，造型、色彩和纹理都是为了判断对面的这个视觉对象是不是可以吃的野果，或者是不是应该赶紧转身跑路的惹不起的剑齿虎。这只兔子打不着，家里的孩子就得饿死，事关生死，不能临时才判断这是什么，必须几乎是本能反应，必须快得不过脑子。所以必须使用预训练模型。正是这种识别倾向，让我们在一块石头中看到了五花肉和文字，让我们有了一些“猴子观海”、“望夫石”之类的拟人化景点。让我们在火星上看到人脸。

在所有的预训练模型中，最成功的就是面孔识别。因为我们最想看到的就是人脸。

社会性的眼睛：面孔倾向

我们人类与其他灵长类动物共享某种检测面部的先天能力。这种能力很可能在灵长类动物中进化，因为我们生活在复杂的社会群体中，因此我们可以这么说，我们的眼睛和大脑都是社会性的。为了社会生活，我们的眼睛和大脑需要可靠地区分每个群体成员。认出这是我家的孩子还是别人家的孩子。这比认出是老虎还是蜜蜂，显然需要更好的视力和更强的脑力。不但要认出，而且还得记住。

从出生开始，婴儿和小猴子就对面部刺激有视觉偏好，他们本能地一看见人脸就乐呵。而人类的小孩本能地在三岁的时候开始画人脸。经常没有鼻子和耳朵，但是一定会有眼睛和嘴巴。许多艺术形式都放大了这些特征——世界各地的面具往往会夸大眼睛和嘴巴的大小，对眉毛、睫毛、脸颊或鼻子的关注要少得多。想想阿兹特克马赛克面具，或者我们这个时代的️ Emoji表情符号吧。

😊😊😊😊😊😊😊😊😊😊😊😊😊😊😊

这个强大的“预训练模型”让我们身不由己地在一切东西上面看到人脸。人们会觉得某些纹理像什么，像心电图，像动物，像文字……但是统计数据表明，看到人脸的机会是34% 。你在很多地方都会看到一张脸在看着你，有时是被吓一跳。

当人们看到抽象的纹理、图像和轮廓的时候，初级视觉皮层的活跃度很高。但是当他们报告说自己看到了一张人脸的时候，扫描图像显示额叶和枕骨区域开始被激活，尤其是右梭形面部区域——这是大脑中对真实面孔做出反应的部分。这个区域是更高级的思维活动--计划和记忆发生的地方。

我们在建筑、俯视的帐篷，树洞、水龙头、充电器、饼干、书包、云朵、树叶……几乎一切上面都能发现人脸。但是被报告得最多的是汽车和门。当然了，两个车灯实在太像眼睛了，而排气格栅实在是太像大嘴了。毕竟，我们在日常口语中，都把房子的前面和汽车前面都叫做“前脸”，也有一个词叫做“门面”。维也纳大学的一个家伙专门前往埃塞俄比亚农村，想看看那边的人是否无法从汽车上看到脸。人们一开始确实觉得西方人有毛病，但很快就入局加入这场游戏。因为即使不是汽车，他们从各种东西上也看到了脸。有预训练模型在，迁移学习就不是问题。

据说这种长得像是脸的东西，会造成一种“老大哥盯着你”的感觉，这会让人变得诚实。这个说法太不靠谱了！毕竟久经沙场的说谎者经常是对着真人的眼睛撒谎的，我就不信把他拉到汽车前面说话他就能变诚实。

韩国艺术家申承帛与金容动（Shinseungback& Kimyonghun）是首尔的韩国艺术家团体。申承帛学习计算机科学，金容动完成了视觉艺术学士学位。他们在韩国科学技术院文化技术研究生院学习时相识，于 2012 年开始组成艺术小组。他们以计算机科学和视觉艺术的背景，就我们认为是常识的视觉图像提出问题。《云脸》Cloud Face是一组照片。人类在云中看到人物：动物、面孔甚至上帝。这种感知也出现在机器视觉中，人脸检测算法有时会在没有人脸的地方找到人脸。

“云脸”是一组被人工智能识别为人脸的云图像。这是人工智能错误的结果。人类也可以从一些图像中看到面孔，但人类并不认为它们是真实的面孔。人类更愿意从云端想象面孔。机器的错误和人类的想象力在这里相遇。

申承帛与金容动《云脸》

作业1：寻找像眼睛的东西，拍照并拼贴一张画。

作业2：寻找带有像是文字的纹理的东西，拍照并拼贴一张画，使之形成一个句子。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。