看完AlphaGo的热闹，发现“数学之美”才是理解 AI 的干货

柯洁和AlphaGo的人机大战已经落下帷幕，但是引发的讨论仍然在持续。但是和去年不同，随着AlphaGo退役，我们忽然发现，AI已经在一夜之间走向正式应用。

所以，在上次推荐了Google自然语言处理NLP领域的大牛吴军博士的《智能时代》后，黑君打算和大家回顾吴军博士另一本知名的著作《数学之美》（第二版）。对IT从业者们而言，尤其是工程师们，理解AI已然是必要的工作，而NLP恰恰是AI顶上的一颗明珠。只有读懂了这本书的内容，才会对AI不仅知其然，还知其所以然。

黑君的好友技术君（技术管理那些事，ID:jsglnxs），正在重读《数学之美》。它并不是一本新书，这本早在2014年推出第二版的书籍，早已被很多人读过，但是在人工智能浪潮席卷而来的时候，我们却再次发现了它的重要性所在。AI的浪潮已经势不可挡，而机器智能的支撑点之一，就是大数据和数学模型。数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。对于IT行业的工程师们而言，理解人工智能已经是必然的选择，而跟随吴军博士的这本书籍，研究AI背后的数学原理，这本书，仍然是必读的工具。

在这里，技术君整理了自己的读后感，梳理了全书的内容脉络。而书中最后一章也提到，AI大数据应用场景无比广阔，展示了AI和大数据，即将和已经带来的奇迹。我们就将其中对医疗领域的影响这部分摘录出来，供大家借鉴。

《数学之美》该怎样读？

1、关于跨学科的益处：作者吴军的博士生导师贾里尼克Jelinek教授，曾经师从信息论鼻祖香农Shannon，所以Jelinek是最早利用信息论（通信数学模型）解决自然语言处理NLP问题的科学家之一，并取得了非凡的成就；

2、关于“道”和“术”的平衡：书中在谈论各种技术难题时，吴博士都在强调，要多关注“道”（数学统计模型），而不是反复在“术”（繁琐的规则）上修修补补。大家可以看到，吴博士强调的通信数学模型贯穿全书；

3、关于大数据和人工智能：根据书中披露，Google大脑的算法就是人工神经网络，之所以在语音识别，图像识别、机器翻译等领域取得了优异的成绩，核心的竞争力还是Google作为搜索引擎所聚集的海量大数据。

「数学之美」第二版共有31章，为了更容易理解，我们将其分成5个部分。

用通信研究自然语言

根本上，就是让自然语言的研究，从模式识别的传统思路（图1）转变到通信模型（图2）上。

图1 早期对自然语言处理的理解

图2 通信模型

事实上，前者思路主要适用在严谨的程序语言设计上，不是很适合发散的自然语言处理。记得我在刚工作的时候，智能设备的计算和存储能力还非常有限，需要设计一个mini版XML Parser，技术上，就是按照编译原理中的BNF范式，完成对XML程序语言的句法分析和语义分析。

但是这个传统方法对于自然语言处理NLP，就遇到了瓶颈，这就是为什么书中提到NLP研究从规则转变到了统计模型。

按照图2所示，NLP的主要问题可以用数学语言描述为：已知o1,o2,o3,...，求出令P(s1,s2,s3,...|o1,o2,o3,...)达到最大值的信息串s1,s2,s3,...。按照近似算法的原则，根据马尔可夫假设，我们的任务就是求图3公式的最大值了。

图3 马尔可夫假设

具体怎么做呢？这个任务基本可以分为三步走：

首先要分词，我们曾经做过机器学习自动分诊项目，根据病例分析匹配医患，首当其冲的就是要把特定医疗领域的分词整理好，也就是找到那些o和s在特定领域的词典。

然后，该「隐含马尔可夫模型的训练」出场了，多年前，我在研究生课程随机过程中学到过。实践中，主要是要训练出模型的各种概率参数，如P(o|s)、P(s2|s1)等。训练方式通常分为两种，有需要人工标记的有监督训练，还有基于鲍姆韦尔奇算法的无监督训练。

最后，根据维特比算法把图3公式中的P(s1,s2,s3,...|o1,o2,o3,...)最大值算出来，进而找出要识别的句子s1,s2,s3,...。

粗略地讲，就是不再用传统语法树规则去解析文本了，而是靠海量的语言资料，把各个词之间的相关性都统计出来，再用一系列上面提到的各种「近似算法」把概率最大的组合选出来。

是不是很神奇，数学家们把原来显式的语法规则都转变到了隐式的概率统计里。当然更重要的是，每一步数学计算都有相应的物理解释，而不是仅仅玩弄数学工具。

搜索引擎的关键技术

吴军博士是搜索引擎专家，这部分主要介绍了其四个主要技术：下载网页、建立索引、度量网页质量排序、按关键字查询。

说起下载，大家很容易想到爬虫，按照广度优先搜索BFS为主，深度优先搜索DFS为辅的算法进行。索引和排序是顾名思义，比较好理解。

Google成功的关键之一就是TF-IDF，确定一个网页和某查询关键词相关性的方法。简单讲，就是关键词在网页中出现的总词频越高排序就越靠前，这个用TF（关键词的频率）表示；但是这个情形要考虑关键词的权重，常见词，如“是”、“中”等肯定是低权重的，这个就用IDF（逆文本频率指数）表示。

书中按照香农信息论进行了证明，一个查询关键词w的权重应该反映这个词对查询来讲提供了多少信息。图4中可以看到，TF-IDF(w)表示对关键词w重要性的度量，词w的信息量I(w)越多，TF-IDF越大；同时w命中的文献中w平均出现的次数c(w)越多，第二项越小，TF-IDF也越大。这些结论和信息论完全相符。

图4 TF-IDF信息论公式

大家看到，搜索引擎的工作原理近乎完美的用香农信息论给出了数学解释，更重要的是每一步数学解释都有其物理意义。这就是本书一直在强调的数学背后的魅力。

关于分类：最大熵模型、布隆过滤器

书中在这部分说到了新闻分类问题，如何不用人工编辑，只是采用数学模型来处理海量新闻文章的归类：余弦定理和矩阵奇异值分解。

相信大家和我一样，我们在中学学习余弦定理和在大学学习线性代数的时候，肯定不会想到这两个数学方法和新闻分类有关系。按照吴博士的话来讲，这就是数学的美，用简单的数学模型解决了看起来无比复杂的现实问题。

更精彩的是，使用相似哈希（第16章）来判定集合之间的相似度，例如，抽取YouTube视频的关键帧，进行帧集合比较，可以有效的反盗版。

我们再来看看最大熵模型，大家可能觉的熵很深奥，其实书中给出的猜球队的例子很通俗的给出了解释：熵就是指不确定性。你猜哪个球队赢，如果猜到的不确定性越大，表示信息熵越大。

最大熵模型就是保留所有的不确定性。另外，数学家希萨 Csiszar证明了，任何一组不自相矛盾信息，这个最大熵模型不仅存在，而且唯一。并且它们都有一个共同的形式--指数函数，图5所示。

图5 最大熵模型

书中提到的拼音Wang-Xiao-Bo转换成王晓波和王小波的例子，很有意思。同样一个问题，最大熵模型和一些简单组合了特征的模型相比，效果可以提升几个百分点。大家可能觉得这个提升很不起眼，但是如果在投资收益上，就可能是数以亿计的利润了，这就是为什么那么多优秀的数学家去了投资机构的原因了。

另外，要特别提一下，在书最后部分介绍Google大脑时，人工神经网络中需要设计非线性函数，一般常用的也是指数函数，它的模式分类能力也等价于最大熵模型。

关于预测的算法

从数学层面来讲，贝叶斯网络（第24章）是一个加权有向图，是马尔可夫链的扩展；条件随机场（第25章）是无向图，是隐含马尔可夫模型的扩展。

书中一个例子，心血管疾病和成因之间关系可以表述为一个贝叶斯网络，可以用来估算预测一个人患心血管疾病的可能性。和第一部分中的隐含马尔可夫模型训练相比，贝叶斯网络训练除了要做参数训练，还要做结构训练，因为它是网状的，而前者是链状的。

另一个例子，洛杉矶警察局委托加州大学预测，在活动、天气、失业率等因素条件下，时间、地点和犯罪类型的分布情况，这是个典型的条件随机场问题。事实上，通过预测，该地区犯罪率降低了13%。

对于不是通信专业的读者，说起维特比算法（第26章），你可能不太熟悉，如果说维特比算法是一个应用最广的动态规划算法，就容易理解了。如果说维特比就是大名鼎鼎的高通创始人，估计基本上就是无人不知了。

移动互联网的迅速发展，让这位发明移动通信CDMA的科学家赚的盆满钵满。到这儿，维特比还得要感谢我们封面上的美丽科学家Hedy Lamarr，这位演员在演奏钢琴时，想到用不同键所发出的频率对信号加密，发明了伪随机数序列加密算法。后来，维特比把这个想法应用到了CDMA技术中，这项扩频调频技术使得通信带宽效率得到了极大的提升，再一次让我们看到了跨界的威力。

最后，说一下期望最大化算法EM（第27章），书中提及的两个常用训练算法都是EM：训练隐含马尔可夫模型的鲍姆韦尔奇算法、训练最大熵模型的GIS算法。

用一句话说，Google大脑就是使用人工神经网络，通过深度学习，来解决在多维空间进行模式分类的问题。人工神经网络的训练，简单讲，就是准备好训练数据，定义一个成本函数，然后采用梯度下降法，找到让成本达到最小值的那组参数。

书末，吴博士在谈论大数据的意义时，尤其强调了Google公司和他本人都热衷于大数据在医疗行业的应用。

例如要搞清楚基因和疾病的关系，第一种方法是医学界比较传统的：实验搞清楚某一段基因的机理，以及它的缺陷可能带来的生理变化，然后再搞清楚这种变化是否会导致或诱发疾病。这通常是一个漫长的过程。

第二种方法是利用数据进行统计。科学家从数据出发，找到基因缺陷和疾病在统计上的相关性，然后再分析这种相关性的原因。书中分别列举了发生在Google和Microsoft的乳腺癌治疗和急诊随访的两个有效案例。

就因为数学统计方法某种程度上超越了传统方法，世界知名生物制药专家阿瑟李文森 Levinson博士到了Google，研究用IT解决医疗问题，比如治愈癌症、防止衰老，目前靠传统医学手段已经无法解决了，大数据相关的技术带来了希望。

至此，把书中的主要内容过了一遍。不管你是否愿意，人工智能都已经推到了我们面前，希望我们能用这些数学知识指导工程实践，解决实际问题。

大数据在医疗领域的重要性

by 吴军

23andMe（医疗创业公司）和同类公司（包估Google的保健研究部门）正在做的另一件事就是将基因的缺陷和疾病联系起来，这个数据必须到研究机构和医院去拿。过去，每一所医院这方面的数据其实是非常有限的，但是如果把成千上万个大小医院的数据收集起来，那么就能够估计出疾病和基因缺陷同现的概率P（AB）了，进而可以将有某种基因缺陷导致疾病的概率算出来。未来，大数据可以通过基因检测的方法准确地告诉我们每一个人今后的健康状况，做到有效预防疾病。

我之所以举医疗行业的例子，是因为除了IT行业，医疗保健是对大数据最热衷的行业。当然，另一个原因是Google和我本人对这个行业都比较热衷，比较容易举例子，但这并不表明大数据的应用只集中在这两个行业。

医疗保健行业是美国最大的行业，2013年它的产值占到美国GDP的15%左右，如果成本不能下降，这个比例将提高20%左右。在这么大的一个行业，虽然过去医生们也天天在和数据（各种化验结果和指标）打交道，但遗憾的是，在过去的五六十年里，医生们利用IT技术来改进医疗水平的动力并不足（除了医学影像等技术外）。不过，在过去的十年里，这种情况得到了改变，医疗行业主动接触IT行业，希望通过大数据来解决医疗保健上的难题，这从另一个侧面显示了大数据的重要性。到目前为止，大数据已经给医疗行业带来了不少意想不到的惊喜。2012年，美国媒体报道了两个大数据在医疗上的应用，就很能说明问题。

第一个是关于一位女高中生的故事。2012年她通过大数据大大提高了乳腺癌活检位置的准确性。我们知道，对于一些可能患有乳腺癌的患者，需要进行活检，也就是在可疑的部位用一种特殊的针穿刺取出一些细胞，化验看看是否有癌细胞。活检的准确性完全取决于穿刺的都位，如果穿刺部位不准确，即使有癌细胞也检测不到。过去这件事完全取决于医生的经验，但是一个医生在美国可能一辈子也就见过几百例这类疾病，因此经验的积累非常缓慢。即使是有经验的大夫，也很难做到每天的表现都一样稳定（因为医生的情绪波动会影响判断的准确性）。这位高中生做了一件什么事呢？她统计了上百万份病例，写了一个程序，在X光片和CT图像上圈出那些可疑的部位，准确率达到了98%，这比靠经验的传统方法要高出很多。当然，她使用的几百万份病例在信息处理从业者看来算不上太大的数据，但是对于医疗行业的人来讲，就已经是非常大的数据了。她的研究成果获得了当年Google科技竞赛的第一名。

第二个例子是微软大数据应用的故事。保险公司发现很多急诊病人在出院后不久，又被送回了急诊室。在美国急诊的费用非常高，对保险公司和个人都是一笔不小的负担。保险公司和医院一起收集了大量病人的信息，交给微软公司从事大数据工作的科学家和工程师分析，看看能否找到什么原因或统计规律。微软的工作人员用机器学习的方法抽取和分析了上万种特征。最后他们发现，如果一个病人在第一次进急诊室后给打了点滴（在美国，除非特别需要，医院很少给病人打点滴），几个星期后被送回急诊室的可能性极大（可能是因为病情确实很重了）。除此之外，他们还找到了其他一些重要特征。因此，对于这些有特征的病人，只要他们在出院后定期跟踪和关注，就可以大幅减少他们返回急诊室的几率。这样医疗的费用就可以降低不少。要训练具有上万个特征的数学模型，没有多维度的大数据是做不到的。

更多利用大数据来帮助医疗的研究还在大学和公司的实验室里展开，其中一项非常有意义的研究就是利用大数据“对症下药”。在斯坦福大学的计算生物学（Computational Biology）研究中心，一些教授和学生正在利用大数据对几千种药和几千种病症进行配对研究，他们发现，原本治疗心脏病的药物，居然对某些人的胃病疗效显著。经过这样的研究，他们也发现了针对不少疾病的新疗法，并且比研制新药的成本要低很多，周期也要短很多。

最后，我要讲述一件激动人心的事情，一件因为使用大数据而可能让我们每个人都受益的事情，作为这一章，也是这本书的结尾。

2013年，Google创立了一个叫Calico的公司，致力于用IT成果解决医疗问题，并且聘请了世界上最知名的生物制药专家、原基因泰克公司的CEO阿瑟·李文森（ArthurD． Levinson）博士来主持这项富有创意的工作。身为苹果和基因泰克两家知名公司董事会主席的李文森以及他很多过去的同事，为什么要跑到一家毫无医疗和生物制药经验的公司去研究医疗问题呢？因为他们认为未来的世界是数据为王的时代。很多难题，比如治愈癌症、防止衰老，靠传统的医学手段是无法解决的，要攻克这些难题，需要使用大数据相关的技术。

李文森博士在一次报告会上讲述了为什么今天人类依然无法治愈癌症。他认为主要有两方面的原因。首先，一种药是否有效，和人的基因密切相关。这样一来就需要针对不同基因的人使用不同的药，如果做到极致，就得为每一个人专门设计一种药。但是，这个想法即使行得通，也有个成本的问题。按照他的估计，采用过去研制新药的传统做法，为特定的人研制一种抗癌新药的成本是10亿美元，当然不可能普及。第二，癌组胞的基因本身是在不断变化的。我们经常会听到这样的病例，一个患者使用一种抗癌药一开始效果很好，恢复得很快，但是后来这种药似乎不再起作用了，于是癌症复发而且控制不住。这是因为癌细胞的基因已经发生变化了，有别于原先的癌细胞，之前的药物自然也就不起作用了。

据李文森博士介绍，目前最大的问题是，即使能为每一个人研制特定的抗癌药，现有的研制速度还是赶不上癌细胞变化的速度。

针对上述两个问题（抗癌药需要因人而异，药物的研制必须快于细胞基因的变化），李文森博士认为必须依靠大数据，对不同人共性的地方进行统计，这样很多研制新药的实验就不必重复进行了，而且在进行临床试验前，只需要进行少量的动物实验即可。最终，他认为可能会给每一位患者量身定制药物，成本控制在每个人5000美元以内。同时，由于大部分工作可以共享，对药品的改造周期可以非常短，使得药物的研制比癌细胞变化更快，从而有望治愈癌症。

从上面这些例子中，我们可以看到大数据对信息产业以及其他产业的重大影响。现在，我们队大数据的重要性来做一个总结。首先，只有当一些随机事件的组合一同出现了很多次以后，才能得到有意义的统计规律；其次，大数据的采集过程是一个自然的过程，有利于消除主观性的偏差。当然，更重要的是，只有多维度的大数据才能让那些原本有联系，但似乎联系又不太紧密的事件反复出现，然后发现新的规律。最后，它可能是解决IT行业之外的一些难题（比如医疗）的钥匙。

出版社：人民邮电出版社

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。