关于深度学习从人脑研究到构建复杂算法的进化过程的一个小故事

Frank Rosenblatt working on Perceptron Cornell Chronicle, Division of Rare and Manuscript

TLDR；在此博客中，您将学习深度学习（DL）的理论方面及其发展方式，从研究人类大脑到构建复杂算法。接下来，您将看到由著名的深度学习人员进行的几项研究，然后他们在DL领域播种了幼树，而DL现已发展成一棵大树。最后，将向您介绍深度学习已奠定坚实基础的应用程序和领域。

深度学习：简史

在过去的十年中，没有其他技术比人工智能重要。斯坦福大学的安德鲁·伍（Andrew NG）称其为'新电力'，包括Google，微软和苹果在内的多家科技巨头已经改变了其业务战略，成为'人工智能第一'的公司。我们为此深表感谢。在开始之前，让我们了解DL的含义以及其大肆宣传的原因。

深度学习是AI的子集，是一种计算机技术，可以使用神经网络的多个人工层来提取和转换数据。这些层包含一组以特定状态存在的人工神经元。当数据发送到这些层时，每个层都从先前的层中获取输入，并逐步完善它们。然后，通过可不断减少错误并提高其预测准确性的算法对各层进行训练。这样，网络便学会了执行特定任务。

> Classes of Artificial Intelligence (Image by Author)

DL与传统的AI和机器学习（ML）算法相比，速度较慢，但功能更加直接和强大。因此，它们基于一种创新类型的模型（神经网络）在医学，科学，社会，制造，供应链，机器人等不同领域中得到广泛使用。如果您想知道DL的时间可以追溯到什么时候，让我向您澄清，它毕竟不是新的。它自1940年代以来就存在。让我们深入了解历史，看看它们是如何不时演变的。

McCulloch-Pitts（MCP）模型

神经网络由沃伦·麦卡洛（Warren McCullough）和沃尔特·皮茨（Walter Pitts）于1944年首次提出，这是两位芝加哥大学的研究人员，他们于1952年移居麻省理工学院，成为第一个认知科学系的创始人。他们的研究的标题为'神经活动固有思想的逻辑演算'，目的是了解大脑如何通过使用许多相互连接的细胞来产生高度复杂的模式。同样的理论也帮助他们使用受真实神经元启发的电子电路对简单的神经网络进行建模。据学者称，尽管存在不同的观点和问题，但本文仍被视为人工神经网络的开端。

> Warren McCulloch and Walter Pitts (Wikipedia Commons)

神经元的结构以' MCP（McCulloch Pitts）神经元'命名。MCP神经元通常被称为线性阈值门，因为它将输入分为两类。在数学上，线性阶跃函数定义为

> The mathematical definition of Linear threshold gate (Image by Author)

· y代表输出

· xi代表输入信号

· wi代表神经元的相应权重

· Zj代表抑制输入

· Θ代表阈值

该功能的设计方式是，任何抑制性输入的活动都可以在任何时间点完全阻止神经元的兴奋。

下图是河口清（Kiyoshi Kawaguchi）的线性阈值门图示。

> Symbolic Illustration of Linear Threshold Gate by Kiyoshi Kawaguchi

赫比学习规则

1949年，即MCP模型发明六年之后，唐纳德·赫布（Donald O. Hebb）在他的名为'行为的组织'的研究中加强了神经元的概念。由于他在深度学习方面做出的巨大贡献，他还被称为神经网络之父。

> Donald Hebb (SRC: UBC Open Collections)

现在，让我们看看' Hebbian规则'是关于什么的；它指出，随着这两个单元同时出现的频率增加，应加强两个单元之间的联系。

为了理解规则，以下是他的书摘录，

'当细胞A的轴突足够接近以激发细胞B并反复或持续参与激发它时，一个或两个细胞中都会发生某些生长过程或代谢变化，使得作为激发细胞B的细胞之一，作为效率，增加了。'

上面的陈述描述了神经元活动如何影响神经元之间的连接，即突触可塑性。它提供了一种更新神经网络内神经元连接权重的算法。总结他的研究，以下是Hebbian学习机制的三个主要收获：

· 神经网络中神经元连接之间的信息以权重的形式存储。

· 权重的更新与神经元激活值的乘积成正比。

· 随着学习的进行，弱连接神经元的同时或重复激活会逐渐改变强度和模式，从而导致更牢固的连接。

感知器

1957年，在MCP模型和希伯来准则获得成功之后，心理学家弗兰克·罗森布拉特提出了第一个可训练的神经网络，称为Perceptron。后来，他用感知器构造了一种电子设备，该电子设备显示出能够根据联想进行学习的能力。

Perceptron的设计与现代神经网络相似，不同之处在于，Perceptron的设计只有一层，可以在输入层和输出层之间将输入分为具有可调权重和阈值的两种可能的输出类别。

> Rosenblatt and the Perceptron (Wikipedia Commons)

他的大部分研究主要是受到人类视觉环境的启发。让我们看看如何！

> Left: Illustration of organisation of a perceptron in (Rosenblatt, 1958), Right: A typical perceptron in modern machine learning literature (Src: On the origins of DL)

左图解释了Rosenblatt感知器。它具有四个单元，分别是感觉单元，投影单元，关联单元和响应单元。当输入被发送到视网膜时，信息被发送到投影区域，然后投影区域前进到感觉单元，然后传递到关联单元。该结构类似于当今神经网络中感知器的结构，如右图所示。

可以认为感知器与MCP模型非常相似。但是，这是主要区别：

在感知器中，神经元具有与突触权重相关的附加常数，称为偏差（b）。可以将其视为激活阈值的取反。

· 突触权重不限于单一或正。因此，某些输入可能具有抑制作用，从而使某些输入对神经元输出的影响大于其他输入。

在数学上，感知器所依赖的人工神经元的非线性由下式给出：

> Image by Author

无论采用什么形式，感知器（以及许多其他线性分类器）的决策边界都由下式给出：

> Image by Author

另外，我们可以给出一个紧凑的数学符号，如下所示：

> Image by Author

这是感知器的现代插图，解释了重量和偏向如何与神经元相连：

> Image by Author

反向传播

反向传播学习技术是深度学习领域的重大突破之一。该算法于1970年代引入。但是，直到1986年著名的研究论文'通过反向传播错误学习表示法'（David Rumelhart，Geoffrey Hinton和Ronald Williams出版）之后，它的重要性才得到人们的充分认识。

Left to Right: David Rumelhart Geoffrey Hinton, NNs, with forward and back pass (Wikipedia Commons)

如果没有针对神经网络的高效反向传播技术，将深度学习网络训练到今天所看到的深度将是不切实际的。反向传播可以被认为是现代神经网络和深度学习的基础。

该算法用于使用称为链规则的方法有效地训练神经网络。简而言之，在每次向前通过网络后，反向传播都会执行向后传播，同时会调整模型的参数（权重和偏差）。反向传播的核心是成本函数C的偏导数∂C/∂w的表达，其中C涉及网络中的任何权重w（或偏差b）。

'为什么将导数用于反向传播算法？'。

· 特定输入x的成本函数C的梯度是C的偏导数的向量。

· 使用成本函数的这种梯度，我们可以测量与输入量变化有关的输出值灵敏度。换句话说，使用此导数，我们可以了解成本函数的发展方向。

· 总而言之，渐变显示参数w（或b）需要改变（正向或负向）以最小化C的量。

> Image showing how the gradients are Computed (src)

到目前为止，我们已经看到了深度学习先驱做出的一些重要贡献。下图为我们提供了自1940年代以来该领域如何演变的总体思路。如我们所见，时间轴非常密集，而在单个博客文章中涵盖所有这些内容将是完全不现实的。如果您仍然有兴趣进一步详细了解这一点，建议您阅读这篇由Haohan Wang和Bhiksha Raj撰写的非凡研究，题为'关于深度学习的起源'。

> Credits to Favio Vázquez for this awesome image!

现在，让我们来看看深度学习如何发展到迄今为止具有各自应用程序的不同领域。

深度学习的领域和应用

很久以前，当前技术的进步是无法触及的。我们从未想象过人性化的计算机，自动驾驶汽车以及医疗程序的改进。但是如今，这些功能凭借深度学习的力量已成为我们日常生活的一部分。现在让我们进一步了解深度学习在各个领域的应用。

计算机视觉：简而言之，简历提供了一些技术来帮助计算机'看到'并理解数字内容，例如图像和视频。以下是DL for Computer Vision的一些应用程序。

· 面部识别和识别

· 卫星和无人机图像

· 图像搜索优化

· 图像超分辨率和彩色化

· 引导自动驾驶车辆识别道路，行人，信号灯等

自然语言处理（NLP）：NLP帮助理解与语言相关的复杂性，可能是语法，语义，音调细微差别，表达甚至嘲讽。随着计算能力的提高，深度学习现在也能够识别和理解人类语言。诸如Siri，Google Voice之类的AI助手主要依靠NLP来处理信息。这是它的一些应用。

· 语音识别

· 命名实体识别（标识名称，位置，地址，并且可以从文本中移出）

· 聊天机器人（Q和A）

· 社交媒体上的情绪和情感检测

医学与生物学：医学与生物学的进步提供了大量数据，如医学图像，基因信息，蛋白质序列等。利用这些数据，正在开发几种基于深度学习的算法，这些算法已广泛用于生产中，以帮助医生，科学家和放射科医生。以下是一些通过DL取得突破的应用程序：

· 医学图像分类（在CT，MRI，X射线图像上）

· 肿瘤分割

· 蛋白质折叠和药物发现

· 临床文字处理

游戏：DL彻底改变了以前的游戏方式。DL算法现在可以通过适应玩家的情绪和心理状态来与人类对抗。所有这些都归功于强化学习带来的尝试和错误学习的概念。

> OpenAI models playing against humans (Source: OpenAI)

以下是一些被广泛使用的应用程序：

· 玩NPC（非角色）—机器人

· 建模复杂的交互

· 视频图形处理

· 游戏宇宙创作

参考文献：

· 解释：神经网络

· 用于反向传播的多线程软件模型

· 感知器：大脑中信息存储和组织的概率模型

· 深度学习的起源

· 罗森布拉特的感知器，第一个现代神经网络|尚·克里斯托夫·B·洛索（Jean-Christophe B.Loiseau）

谢谢阅读！

(本文由闻数起舞翻译自Emma Ding的文章《The past, present and future of deep learning》，转载请注明出处，原文链接：https://towardsdatascience.com/the-past-present-and-future-of-deep-learning-adb4d60eaf24)

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。