机器学习如何重塑人类世界

您正在阅读 OFFLINE Issue 43《极简机器学习入门》。成为离线会员，您将收到每周一期电子杂志，完整阅读会员专享内容。

（点击图片了解会员详情）

◆

机器学习如何重塑人类世界

佩德罗·多明戈斯

你也许不知道，但机器学习就在你身边。当你把查询信息输入搜索引擎时，它选择向你显示哪些搜索结果。当你打开邮箱时，大部分垃圾邮件你无法看到，因为计算机已经把这些邮件过滤了。你登录亚马逊网站购买一本书，机器学习系统会推荐一些你可能喜欢的产品。任何时候，当你使用计算机时，都有可能涉及到机器学习。

传统上认为，让计算机完成某件事情的唯一方法，就是非常详细地记录某个算法（就是一系列指令，告诉计算机能做什么）并解释其如何运行。但机器学习算法就不一样：通过从数据中推断，计算机自己会弄明白该怎么做。掌握的数据越多，它们的工作就越顺利。现在我们不用给计算机编程，它们自己给自己编程。

计算机会自己编写程序。现在看来这是一个强大的想法，甚至可能有点吓人。到今天为止，人们能编写许多计算机无法学习的程序。但计算机却能学习人们无法编写出来的程序。我们会开车、会辨认字迹，但这些技能都是潜意识发挥出来的，无法向计算机解释这些事情是怎么实现的。但是，如果我们把足够多的例子交给算法后，算法会很乐意弄明白这些事情是怎么实现的，这时我们就可以放手让算法去做了。邮局正是通过这种方法来识别邮政编码，自动驾驶汽车也是这样才能上路。

解释机器学习的力量的最好方法，也许就是将其与其他低技术含量的活动进行类比。在工业社会，商品由工厂制造，这也就意味着工程师必须弄明白商品是如何通过零件组装起来、这些零件如何生产等。这是一项大工程。计算机是人类发明的最复杂的产品，计算机设计、工厂生产、程序运行都涉及大量的工作。还有另外一种方法也能让我们得到某些想要的东西，就是让自然规律去塑造它们。在农业中，我们播种，确保种子有足够的水分和营养，然后收割成熟的作物。为什么技术不能这样？完全可以，而这也是机器学习的原理。学习算法是种子，数据是土壤，被掌握的程序是成熟的作物。机器学习专家就像农民，播下种子，灌溉，施肥，留意作物的生长状况。

一旦我们这样看待机器学习，随即也会发生两件事：

第一，我们掌握的数据越多，我们能学的也越多。没有数据？那就什么也学不到。有大数据？太多东西可以学习。这也是机器学习无处不在的原因，因为数据量在飞速增长。

第二，只要有足够的数据，一段只有几百行代码的程序可以轻易生成上百万行代码的程序，而且它可以为不同问题持续的去编写不同的程序。这可以显著降低程序员工作的复杂度。

机器学习有时会和人工智能（AI）混淆。严格来讲，机器学习是人工智能的子集，但机器学习发展得如此壮大且成功，现已超越以前它引以为傲的母领域。人工智能的目标是教会计算机做现在人类能做的事，并且做得更好。而机器学习可以说就是其中最重要的事：不持续学习，计算机就永远无法跟上人类的步伐；有了学习，一切都与时俱进。

机器学习专家在计算机科学家中就是一种精英式的「神职」。许多计算机科学家，尤其是更老的那一代，并不如他们想的那样能很好地理解机器学习。这是因为，计算机科学通常需要的是精准思维，但机器学习需要的是统计思维。例如，如果有条规定是「垃圾邮件标记的正确率是 99%」，这并不意味不够精准，而可能意味这是你的最好水平，已经很好了。这种思维上的差别很大程度上也解释了为什么微软能赶上网景，但想赶上谷歌却困难得多。说到底，浏览器只是一个标准的软件，而搜索引擎则需要不同的思维模式。

工业革命使手工业自动化，信息革命解放了脑力劳动，而机器学习则使自动化本身自动化。将自动化带入新的高度，机器学习革命会带来广泛的经济及社会变革，正如互联网、个人计算机、汽车以及蒸汽机在当时对社会和经济的影响那样。这些变革已经明显存在的领域就是商业和科学。

为何商业拥护机器学习

企业发展壮大的过程中会经历三个阶段：

第一阶段的所有事都由人工完成——夫妻店的店主亲自了解其顾客，他们依照顾客类型订购、展示、推荐产品。这很不错，但规模不大。

第二阶段是最辛苦的时期，公司变得越来越大，需要用到计算机。公司招来程序员、顾问，买来数据库管理器，程序员编写了成百万行的代码来使公司所有能自动化的功能自动化。更多的人享受到服务，但也有麻烦：决定是在粗略的人口统计基础上做出来的，计算机程序也过于死板，无法与人类的能力相比拟。

经过一段时间进入第三阶段，当没有足够的程序员和顾问满足公司的需要，公司不可避免地要向机器学习寻求帮助。亚马逊无法通过计算机程序将所有用户的喜好熟练地进行编码，Facebook 也不知道如何编写一个程序，能选出最好的内容展示给每位用户。它们也没有这么做。相反，这些公司所做的工作是在收集到如山的数据后，让学习算法尽情学习，然后预测顾客想要什么产品。

学习算法就是「媒人」：它们让生产商和顾客找到对方，克服信息过载。如果这些算法足够智能，你就能取得两全其美的结果：从宏观来讲，选择广、成本低；从微观来讲，能够了解顾客的个性化需求。学习算法并不是完美的，决定的最后一步通常还得由人来做，但学习算法很智能，为人们减少了需要做的选项。

回顾过去，我们发现，从计算机到互联网再到机器学习的进步是必然的：计算机使互联网成为可能，这个过程产生大量数据以及无限选择这个问题。单单互联网还不足以把「一个尺寸满足所有」的需求转向追求无限多样化的长尾效应。Netflix 的库存里可能有 10 万种光盘，但如果顾客不懂得如何找到自己喜欢的，他们就会默认选择最流行的。只有 Netflix 有了学习算法之后，才能帮助它了解顾客的喜好，为顾客做出推荐，长尾效应也才得以真正实现。

一旦机器学习成为媒介，那么其力量也开始慢慢积聚。谷歌的算法很大程度上决定了你会找到什么信息，亚马逊决定你会买到什么产品，最好的选择权仍在你手里——从算法给你展示的所有选项中挑选，但 99.9% 的选择却是由算法做出的。当下，一家公司的成败取决于学习算法对其产品的喜爱程度，而整个经济体的成功——每个人能否得到自己需要的物美价廉的产品，则取决于学习算法的智能程度。

公司确保学习算法喜爱其产品的最佳方法就是，让公司自己运行算法。谁有最佳算法、数据最多，谁就能赢。新型网络效应占据上风：谁有最多的用户，谁就能积累最多的数据，谁有最多的数据，谁就能学到最好的模型，谁学到最好的模型，谁就能吸引最多的用户，这是一种良性循环。把搜索引擎从谷歌换到必应，可能会比把应用系统从 Windows 切换到 Mac 要简单。但在现实中，你不会这么做，因为谷歌拥有领先优势及更大的市场份额，比必应更懂得你想要什么，虽然必应的技术也不错。可惜的是，必应刚进入搜索行业，没有什么数据资源，而谷歌却拥有十余年的机器学习经验。

你可能会认为，过一段时间，更多的数据结果意味着更多的重复，但数据的饱和点还未出现，长尾效应会持续起作用。如果你观察亚马逊为你提供的推荐产品，很明显，这些推荐项仍很粗略，而谷歌的搜索结果也有很大的优化空间。每个产品的特性、网页的每个角落都有很大的潜力，都能通过机器学习得到改善。还有，最好让机器学习持续运行，不断调整网页的各个方面。

所有拥有大量选择和数据的市场都会发生这样的动态循环。比赛正在进行，谁学得最快，谁就赢了。随着越来越好地了解用户需求，这个比赛不会停止：企业可以将机器学习应用到企业运作的每个方面，只要有足够的数据，只要数据能够从计算机、通信设备以及更廉价、更普适的传感器源源不断地输出。「数据是新型石油」是目前的流行说法，既然是石油，提炼石油就是一笔大生意。和其他公司一样，IBM 已制定经济增长战略，为企业提供分析服务。业界将数据看作战略资产：我有什么数据，而竞争对手却没有？我要怎么利用这些数据？竞争对手有什么数据，而我却没有？

同样的道理，没有数据库的银行无法和有数据库的银行竞争，不会机器学习的企业也无法跟上使用机器学习的企业。虽然第一家公司的专家写了上千条规则，试图预测用户的喜好，但是第二家公司的算法却能学习数十亿条规则，一整套规则都可用于每位用户。这就相当于长矛对机关枪。机器学习是很棒的新技术，但这并不是商业界拥护它的原因——人们之所以拥护它，是因为别无选择。

给科学方法增压

机器学习是「打了类固醇」的科学方法，也遵循同样的过程：产生假设、验证、放弃或完善。科学家可能会花费毕生精力来提出或验证几百个假设，而机器学习系统却能在一秒钟内做完这些事。机器学习使科学的发现过程自动化。因此，并不奇怪，这既是商业领域的革命，也是科学领域的革命。

为了取得进步，科学的每个领域都需要足够的数据，以与其研究的复杂性相对应。这是物理成为第一个腾飞学科的原因：第谷·布拉赫对星球位置的记录，以及伽利略对钟摆摆动、斜面的观察，已经足以推导出牛顿定律。这也是为什么虽然分子生物学这个学科比神经科学年轻，但是已超越神经科学：DNA 微阵列以及高通量测序技术提供了大量的数据，而神经科学家对此只能可望而不可即。这也是为什么社会科学研究是一场艰苦卓绝的战斗：你拥有的只是 100 人的样本和每个人的十几个测量值，你能模拟的也只是某个规模很有限的现象，甚至这个现象可能都不是孤立存在的，它还受到其他现象的影响，这就意味你仍然没有彻底了解它。

好消息是之前缺乏数据的学科现在能拥有很多数据。用不着让 50 名睡眼惺忪的本科生到实验室完成任务并付给他们报酬。心理学家通过在亚马逊「土耳其机器人」上发布实验任务，就可以找到满足他们数量要求的实验对象（这个网站对更多样化的样本也有帮助）。只是十年前，研究社交网络的社会学家哀叹说，他们无法得到超过几百人的社交网络。现在有了超过 10 亿用户的 Facebook 。大部分用户会发布有关他们的生活细节，就像地球社会生活的实时直播。在神经科学领域，神经连接组学和功能性磁共振成像让人们对大脑有了十分详细的了解。在分子生物学领域，基因和蛋白质的数据库数量以指数级速度增长。甚至更为「年长」的学科，如物理学和解剖学也在不断进步，因为粒子加速器和数字巡天领域的数据在源源不断输出。

如果你不将大数据变成知识，它将毫无用处，可是世界上没有那么多科学家来完成这件事。埃德温·哈勃通过钻研照相底片发现新的星系，但史隆数字巡天计划中，多达 5 亿的天体肯定不是这样被辨认出来的。这就像在沙滩上用手来数沙粒的数目一样。你可以记录规则，把星系从星星及干扰物（如鸟、飞机、超人）区分开来，但得出的星系并不那么准确。相比之下，天体图像目录编辑和分析工具（SKICAT）项目使用了学习算法。底片包括标记了正确类别的天体，从这些底片出发，学习算法可以明白每个分类的特点，并将其应用到没有标记的底片中。甚至更理想的是，学习算法能够将那些对人类来说难以标记的天体进行分类，这些天体正是该项调查计划的主要内容。

有了大数据和机器学习，你就能弄明白比之前复杂很多的现象。在多数领域，科学家一般只使用种类很有限的模型，例如线性回归模型，在这个模型当中，你用来适应数据的曲线总是一条直线。遗憾的是，世界上的大多数现象都是非线性的（或者说这也是一件幸事，如果是线性的，生活会变得非常乏味。实际上，那样就不会存在生命了）。机器学习打开了广阔、全新的非线性模型世界。这就好比在只有几缕月光照射的房间，打开了灯。

在生物学领域，学习算法的研究成果包括：DNA 分子中基因的位置；在蛋白质合成前，多余的核糖核酸在哪里进行绞接；蛋白质如何折叠成各自的特有形状；不同条件如何对基因的表达造成影响。用不着在实验室对新药进行测试，机器学习可以直接预测这些药物是否有效，只有最有效的药品才会受到测试。学习算法还会剔除那些可能产生严重副作用（甚至致癌）的药物，备选药物无须人体试验证明无效后才被禁止使用，从而避免付出严重的代价。

然而，最大的挑战是将所有这些数据组合成一个整体。导致你患心脏病的因素有哪些？这些因素如何相互影响？牛顿需要的只是三个运动定律和一个万有引力定律，但一个细胞、一个有机体、一个社会的完整模型却无法由一个人来发现。虽然随着知识的增长，科学家的分工变得越来越细，但是没有人能够将所有知识整合到一起，因为知识太多了。虽然科学家们会合作，但语言是传播效率很低的媒介。科学家们想努力追上别人的研究，可出版物的数量如此之多，他们的距离就被拉得越来越远。重做一项实验甚至比找到该实验的报告还要容易。机器学习的作用在这时就发挥出来了，它能根据相关信息搜索文献，将某领域的行话翻译到另一个领域，并建立科学家们在过去都没有意识到的联系。渐渐地，机器学习成为一个巨大的中心，通过这个中心，某个领域里发明的建模技术将会被引入其他领域。

如果计算机没有被发明出来，20 世纪下半叶的科学将停滞不前。这可能不会很快在科学家当中表现出来，因为他们专注于努力就能实现、实际则是有限的进步，进步的空间真的太小了。同样，如果没有机器学习，许多科学在未来十年将会面临收益递减。

为了预见科学的未来，看看曼彻斯特大学生物技术研究院的实验室，在那里，一个名叫亚当的机器人正在努力工作，目的是找到哪些基因在酵母中对哪些酶进行编码。亚当有一个酵母新陈代谢的模型，还掌握了基本的基因及蛋白质知识。它提出假设，设计实验验证假设，进行实地实验，分析结果，提出新的假设，直到它满意为止。当下，人类科学家仍然在独立检查、证实亚当的结果，但在未来，他们就会交给机器人科学家来验证彼此的假设。

我们将走向何方

除了商业和科学领域，机器学习也在政治民主、国家安全中扮演着越来越重要的角色。科技潮流奔涌而来并迅猛向前。机器学习不同寻常的一点就是，在经历变革、繁荣和破产之后，它变得愈发强大。

机器学习遇到的第一个大的冲击是在金融领域，预测股票的起伏波动，始于 20 世纪 80 年代。接下来的一波是挖掘企业数据库，在 20 世纪 90 年代中发展壮大，尤其是在直接营销、客户关系管理、资信评分以及诈骗侦查等领域。接着是网络和电子商务，在这些领域中，自动个性化很快流行起来。当互联网泡沫暂时削弱这种趋势时，机器学习在网页搜索和广告投放领域的应用开始腾飞起来。9·11 恐怖袭击后机器学习被应用到打击恐怖主义的战争中。网络 2.0 带来一连串的新应用，像是挖掘社交网络、搜索哪些博客谈到你的产品。同时，各个领域的科学家也逐渐转向大规模建模，由分子生物学家和天文学家打头阵。人们留意到了房地产泡沫，其主要影响就是使人才从华尔街转移到硅谷。2011 年，「大数据」的概念流行起来，机器学习被明确归入全球经济未来的中心。当今，似乎没有哪个人类钻研的领域不受到机器学习的影响，甚至包括看起来没有多大关系的领域（如音乐、体育、品酒）。

尽管机器学习的发展趋势已经毫无疑问，但这也仅仅是未来的预告。实际上，将学习算法应用到当今各行各业中，还是有诸多限制的。比尔·盖茨曾说，如果现在实验室的算法能在各领域的前线得到使用，那么机器学习的突破所产生的价值将相当于 10 家微软。其实这个说法有点保守了。如果这些观点真的让研究人员觉得未来一片光明，那么机器学习带来的就不仅仅是新的文明时代，还是地球生命进化的新阶段。

本文整理自《终极算法》（2017.01），佩德罗·多明戈斯著，黄芳萍译，由中信出版社授权发布。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。