【学习】深度学习第一课：了解深度学习的基本原理和工作方式

摘要

转自：百度大脑

近几年深度学习的概念非常火，我们很幸运赶上并见证了这一波大潮的兴起。记得2012年之前提及深度学习，大部分人并不熟悉，而之后一段时间里，也有些人仍旧持怀疑的态度，觉得这一波浪潮或许与之前sparse coding类似，或许能持续火个两三年，但终究要被某个新技术新方法所取代，再后来，无论是学术界还是工业界，总有些研究者为自己没有在第一时间跟进这波浪潮感到后悔莫及。确实，从2012年AlexNet取得ImageNet的冠军开始，五年过去了，深度学习的方法仍旧占领着人工智能这片领域。

随着这波浪潮，有些人作为弄潮儿，兴起一波波巨浪，引领各个领域从传统方法到深度学习方法的转变，并希望能够通过了解其他领域的方法改进自己所从事的领域；有些人辛勤地工作，利用深度学习的方法为公司提高业绩，希望实时跟进并实现最新的技术；有些校园中的研究僧，一方面需要了解最新技术及其背后原理，另一方面还有发文章和找工作的压力；有些相关从业者，如编辑、记者，经常报道AI领域新闻，却从没有时间仔细研究深度学习；还有些非技术人员，总会在这些新闻后惊恐地询问“天网是否能在有生之年建成?”或是“AI对人类的威胁到了什么程度?”。

仅仅通过一节课程，或是一本书来解决以上所有问题明显是不可能的。鉴于国内机器学习资料还是偏少，而且大多是理论性质，并没有实践模块，我们从去年年底开始着手写一本深度学习相关的tutorial，并希望通过一章章真实的案例来带大家熟悉深度学习、掌握深度学习。这个tutorial中每一章内容都围绕着一个真实问题，从背景介绍到使用PaddlePaddle平台进行代码实验，完整地让大家了解整个问题如何用深度学习来解决，从此告别纸上谈兵。参加本次活动之前，没有想到这次报名人数之多。看了下报名群中的同学不乏一些高端用户，于是我知道本篇课程必然要要一些同学失望了，因为这一讲作为第一讲，只能考虑到大多数用户，设计成难度适中的课程，为大家提供一些深度学习最基本的概念，以便更轻松地入门深度学习。如果您是高端用户(能自己run起来深度学习模型或做过一些常识)，建议您可以直接移步tutorial自学，当然如果感兴趣，欢迎继续关注我们系列的后续课程。

首先，对这个系列的后续深度学习课程做一个预告。在这份tutorial中，我们将覆盖如下内容：

新手入门
识别数字
图像分类
词向量
情感分析
文本序列标注
机器翻译
个性化推荐
图像自动生成

本节课程中，我们主要带大家了解深度学习，通过它的一些有用或有趣的应用了解深度学习的基本原理和工作方式。

一、深度学习是什么

传统的机器学习中，我们要为每种任务定义其特定的解决方案。对于图像，曾经人们耗费大量精力设计各种描述子进行图像特征描述；对于文本，单单一个机器翻译任务就动辄多个模型的设计：如词语对齐、分词或符号化（tokenization）、规则抽取、句法分析等，每一步的错误都会积累到下一步，导致整个翻译结果不可信，且要追查一个错误会非常复杂。深度学习的优势，就是可以弥补以上问题，一方面减少了对大量手工特征的依赖，对于图像文本等领域可以直接从原数据进行建模；另一方面通过端到端的网络模型（即一个网络直接从输入到输出建模，而不需要中间步骤）减少了多步骤中错误累积的问题。

深度学习采用多层神经网络的方法，依赖大数据和强硬件。

大数据
在这个数据爆发的时代，普遍的认知是，大数据并不是问题。但实际上也不完全是这样。从领域角度，图像的通用分类和语言模型的训练或许可以从搜索引擎中获取大量样本，但对于细粒度图像分类（如不同类型的花的分类）或是专业领域的对话数据（如法律咨询类）的数据就比较稀缺；从应用方法角度，图像、文本和语音都方便获取，但如果希望进行有监督训练，就必须有对应的标记（label），如标明一段语音对应的人，或是一段语音对应的文本，这就是个大工程了。这就需要我们利用已有资源，最简单的方法比如可以先利用大量无标记数据学习数据的特征，就可以减少数据标注规模。
强硬件
由于深度学习需要强计算处理能力，因此需要GPU显卡进行并行加速，拼硬件已经成为学界和工业界在研究深度学习网络时的一大共识。在2016年期间，英伟达和AMD的股票价格都实现了飞涨，如下图是GPU制造商英伟达(NVIDIA)公司今年的股价趋势。可以说这种跳跃式增长得益于GPU芯片在游戏、虚拟现实、自动驾驶、数据中心等各个高性能计算需求领域的应用。

GPU的每个显卡具有多个（通常是几十个）多处理器(Streaming Multiprocessors, SMs)，每个多处理器中有上百个CUDA核。一个多线程程序的一个kernel实例在一个SM上执行，一个kernel实例上的操作会分配到不同cuda核中独立执行。所以只要程序分配得当，GPU中的处理器越多执行越快。如Titan X(GM100)显卡拥有24个多处理器，每个多处理器拥有128个CUDA核，整个显卡有3072个CUDA核，其相对16核Xeon E5 CPU处理器要加速5.3~6.7倍[1]，这对于实时性要求较高的应用意义非凡。

链接：

http://gitbook.cn/books/588428d95a5adc3f0316026d/index.html

原文链接：

http://weibo.com/6058251008/Esifxyoid?type=comment#_rnd1485255991106

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。