《崩溃》| 唐帅解读

关于作者

克利尔菲尔德，曾是一名衍生品交易员，2008年亲眼见证华尔街大投行雷曼兄弟的倒闭和全球股市的崩溃，后来创办了一家管理咨询公司，研究如何避免灾难性失败问题。

蒂尔奇克，多伦多大学副教授，开设课程“组织中的灾难性失败”，被联合国称为商学院灾害风险管理领域的最佳课程。

关于本书

本书是一本清晰的资料手册和行动指南，详细分析了什么是灾难性失败，为什么我们这个时代会遇到崩溃性失败，以及如何避免崩溃性失败。

核心内容

因为系统复杂性和耦合性的增加，灾难性失败不仅没有减少，反而随着科技的发展变得更多了。预防灾难性失败，总的方向是降低系统的复杂性和耦合性。预防的方法不仅可以单个使用，还可以组合起来用，形成组合拳。

前言

你好，欢迎每天听本书。今天为你解读的这本书是一本英文新书，还没有中文版，书名直接翻译过来叫作《崩溃》。这本书研究了大量的灾难性失败，并且告诉我们怎样预防灾难性失败。

先来说说，什么是灾难性失败呢？顾名思义，就是后果非常严重、影响特别大的失败结果。举几个例子来感受一下。1979年，美国发生了他们国家核电史上最严重的事故，核反应堆的关键部件，也就是核反应堆的堆芯，在10分钟内就遭到了严重的损毁。再比如2012年，美国华尔街的一家独立券商，因为程序故障，45分钟内就损失了4.4亿美元，一下子就到了破产的边缘。类似的案例书里还讲了很多，这些案例都有几个共同的特点：一个是结果很严重；另一个是引起这些严重后果的都是一个个小问题，如果能解决这些小问题，灾难性失败本来是可以避免的。

《崩溃》这本书就系统地研究了这些失败事件，并且提出了避免失败的建议。这些建议不仅对组织很有价值，对个人的成长也很有意义。你可别以为灾难性失败离我们很远，作者说，我们正处在崩溃的黄金时代，每个人都可能遇到崩溃性事件，我们都需要了解如何避免这样的崩溃。

再来介绍一下这本书的作者。这本书有两位作者，一位是克利尔菲尔德，他曾经是一名衍生品交易员。在2008年金融危机的时候，他亲眼见证了华尔街大投行雷曼兄弟的倒闭和全球股市的崩溃，于是，他创办了一家管理咨询公司，研究“如何避免灾难性失败”这个问题，对于这个问题很有心得。另一位作者叫蒂尔奇克，是多伦多大学的副教授。他开设了一门课程叫作“组织中的灾难性失败”，被联合国称为商学院灾害风险管理领域的最佳课程。在本书刚刚出版不久，两位作者就被邀请到谷歌公司，做了一场关于本书的专题演讲。他们表示还要出版本书的续集，我们也会持续关注。

接下来，我将从两个部分来为你解读这本《崩溃》。首先，我会为你介绍导致灾难性失败的原因是什么；其次，我再来介绍作者对于避免灾难性失败给出了哪些建议。

第一部分

首先咱们来说说，导致灾难性失败的原因是什么。

你可能会觉得，既然是灾难性失败，那么原因肯定也是灾难性的，你可能还会觉得，现在科技这么发达，灾难性失败应该变得越来越少了。然而，书中在分析了大量实际案例后，却得出了一个反常识的结论：灾难性失败，都是由一个个不起眼的小错误，像滚雪球一样叠加而成的，在很短的时间内就能导致系统的崩溃；而且，随着社会的进步，灾难性失败不是更少了，而是更多了。作者提出来一个概念，说我们正在遭遇“进步的悖论”。什么是进步的悖论呢？就是科技的发展，给我们提供了前所未有的超强能力，但同时，也让微小的错误或者简单事故的破坏力变大了，所以，灾难性失败发生的可能性也更大了。

这里要介绍一个理论，叫作“正常事故理论”。这个理论的意思是说，当一个组织的内部，组成部分复杂，而且各部分高度互动、紧密相连，那么发生事故就是正常的。这一理论是耶鲁大学社会学荣誉教授查尔斯·佩罗，在上世纪80年代提出来的。佩罗是怎么得出的这个理论呢？这就要说到美国核电史上最严重的核泄漏事故，也就是三哩岛核电站核泄漏事故，佩罗参与了事故调查。官方的调查报告，把这起事故归罪于一名员工的错误操作，但是佩罗作为一名社会学家，他觉得这起错误操作，仅仅是导致事故的众多小错误之一。

这起事故是从一个给水泵的停转开始的。由于备用给水系统中的一个隔离阀，在此前的例行检修中没有按规定打开，导致备用泵没有按照预设的程序自动启动，此后又在短短的10分钟内，相继发生了卸压阀故障、减压水槽水满外溢、反应堆操作员操作失误等一系列小事故。具体的反应原理非常专业，咱们就不具体解释了，但你可能会有一个疑问，这么重要的核电站设施，这些故障发生后应该有警报响起才对啊？是的，警报确实响了，但竟然没有引起任何人的注意。因为控制室内的各项指示器显示一切正常，所以，核电站的工作人员虽然听到警报响了，但是不知道为什么响，无处下手。短短10分钟之内，核反应堆的堆芯严重损毁，已经无可挽回。

三哩岛核泄漏事故，是一起典型的“正常事故”，它不是由外部冲击造成的，而是由技术故障和人员操作错误共同造成的。佩罗从中分析出，决定灾难性失败发生的主要因素有两个：一个是系统的复杂性，另一个是系统的耦合性。我们分别来看。

先说系统的复杂性。在这个层面上，造成灾难性失败的，是组成系统的各个部分本身。系统的复杂性越大，灾难性失败的可能性就越大。简单系统是线性的，像是一条装配流水线，哪儿出错了一目了然，但是，复杂系统是非线性的，像是一张网，系统的各个部分会以隐藏的、意想不到的方式相互作用，故障的来源非常隐蔽。我们既不可能预测出所有可能会出错的地方，也无法准确预测出系统中某处小故障可能导致什么后果。更糟糕的是，复杂系统还有一个特点是，需要依靠间接指标来评估大多数情况。比如核泄漏事件，我们就没法直接派人去看核反应堆发生了什么问题，而只能通过压力、水流量等指标，拼凑出一个核反应堆可能的完整情况。这是复杂性。

另一个因素是系统的耦合性。耦合性是工程学的一个术语，用来描述系统各部分之间连接的紧密程度。系统的耦合性越大，灾难性失败的可能性越大。为什么会这样呢？因为系统耦合性很大时，各部分之间几乎没有缓冲，犯错的余地非常小，一部分的问题很容易影响其他部分，灾难性失败也就会相当频繁。这是耦合性。

当复杂性和耦合性结合起来，就会产生叠加效果，会更快地给系统带来危险。这种复杂性和耦合性，存在于几乎所有的地方，甚至咱们家里也有。书中就举了感恩节晚餐的例子。

在美国，感恩节就像咱们中国的春节一样，非常重要，感恩节晚餐就相当于咱们的年夜饭。传统的感恩节晚餐要有火鸡、配菜和南瓜派，这些都需要用到烤箱，而一般每个家庭只有一个烤箱，这让感恩节当天的时间非常紧张。由于各道工序是紧密耦合的，哪一道出现问题，整顿晚餐就很难准备好。你可能觉得感恩节的晚餐准备难度并不大，但对于吃汉堡三明治、喝牛奶长大的美国人来说，这真算是一顿很复杂的晚餐了。光是烤火鸡一项，就够他们头疼的了。为了避免把火鸡烤糊，他们可是没少想辙，有往火鸡上插一个能被热气弹出的塑料纽扣的，还有把温度计放到火鸡里测温度的。但这些方法都不可靠，总会出现外面的肉已经熟了、里边的肉还没熟，或者鸡胸肉熟了、鸡腿肉还没熟的情况。而烤一只火鸡，平均需要5～6个小时，也就是说，一天之内，如果一只火鸡烤失败了，根本没有时间再烤另一只。所以，美国杂志征集“感恩节晚餐失败故事”时，收到了雪片般飞来的信件。

这就是我们必须面对的现实，复杂性和耦合性已经无处不在，无论是组织还是个人，都会面临这些复杂的、紧密耦合的系统，而且对这些系统越来越依赖，这让我们面临巨大的崩溃风险。这就是我要给你说的第一部分内容，我们所处的世界中，由于系统的复杂性和耦合性都在快速增加，灾难性失败也越来越多。

第二部分

那么，如何避免灾难性失败呢？这正是我要在第二部分里给你讲的内容。

我们显然不能要求坐着时光机，回到从前那个更简单直接的世界，相反，我们要做的，是认清和接受现实，弄清楚如何管理更复杂、更紧密耦合的新系统。书中一共给出了七条建议，我先给你简单介绍一下，分别是设计更透明和松散耦合的系统、使用结构化决策工具、认真对待警示信号、鼓励怀疑、建立多元化的团队、向局外人学习，以及换一个角度更有效地管理危机。这些建议总的方向是降低系统的复杂性和耦合性，但作者们也指出，不能一味地降低，也得保留必要的复杂性和耦合性。我从这七条建议里挑出来给我启发最大的三条，重点说一说。

首先咱们看这一条，设计更透明和松散耦合的系统，也就是简化系统。这看上去没什么稀奇的，但实际做起来并不容易。对于预防灾难性失败，人们普遍的第一反应是增加安全防护措施，但是这些安全措施会成为系统的一部分，增加复杂性，反而会成为系统崩溃的导火索。

书中就讲了2017年奥斯卡史上最大乌龙的例子。当天晚上，奥斯卡最重要的奖项“最佳影片奖”被颁错了，本来应该颁给一部叫作《月光男孩》的电影，但是颁奖嘉宾拿错了信封，宣布另一部电影《爱乐之城》获得这个大奖。《爱乐之城》的剧组都上台领奖、发表获奖感言了，组委会又发现出错了，赶紧改正说获奖的不是《爱乐之城》，是《月光男孩》。为什么会出现这么荒唐的错误呢？原来，当天晚上最佳影片奖是最后一个颁布，颁奖嘉宾拿到的信封不是最佳影片奖，而是最佳女主角奖，嘉宾颁奖当时很激动，没仔细看信封里的内容，看见了《爱乐之城》的名字就直接宣布出来，闹了个大乌龙。

你可能会说，奥斯卡这么重要的颁奖礼，组委会为什么不能多加点安全措施，保证别出错呢？诶，就是因为安全措施做过了头。负责监督颁奖典礼的是全球著名的会计师事务所普华永道，他们采取了双保险箱系统，也就是把两个一模一样的获奖名单信封，放在两个不同的保险箱里，由两个会计师分别保管。这么做的本意，是为了更加保险，防止出错，但是每个奖项多了一个信封，也就增加了发生意外的可能性。而且不管什么奖，信封都一样，标注奖项类别的字体又很小，同时，负责保管保险箱的一位会计师也很激动，颁奖期间还拍了好多名人照片发到自己的社交网站上，这么一来，就弄错了信封。按顺序给颁奖嘉宾发信封，这件事看起来够简单吧？可是，一个个小疏忽叠加起来，最终，最佳影片奖的颁奖嘉宾拿到手里的，成了已经颁过的最佳女主角的信封，后面的错误也就难以避免了。

书中并没有提及事件的后续发展，但我觉得有必要讲给你，因为这实在是一个特别有趣的负面典型。到了2018年的颁奖典礼，普华永道是明显吓怕了，为了防止乌龙事件再次出现，真可谓是无所不用其极。主要的几招我给你介绍一下：第一招是换人，并严禁在颁奖礼时使用手机；第二招是大老板亲自压阵；第三招是加人，增加的第三个人，手里也有一份完整的得奖名单；第四招是要求颁奖嘉宾在拿到信封后，先跟舞台导演检查一遍，以确保没有拿错信封。不知道你晕了没有，反正我是有点乱。这些招数简直是把递信封这件事，生生搞成了颁奖礼上难度系数最高的事情，没有之一。

本书的作者在谷歌做演讲时也讲到了这个例子，但是他们对这些招数连提都没提，唯一关注的是颁奖信封的改变。在2017年，颁奖信封是红底金字，设计那绝对是高端大气上档次，但是信封上的字很小，不认真看真的是很难看清楚，现场的镁光灯再一照，估计颁奖嘉宾更看不清楚了。到了2018年，颁奖信封变成了黑底白字，奖项名称除了标在信封中心，还在左上角和右下角用大字体又标注了一遍。这设计有点土得掉渣，看上去好像配不上奥斯卡，但是让奖项名称这一关键指标变得清晰可见。这是简化系统最直接的一招，也是最管用的一招。

奥斯卡乌龙事件造成的经济损失，不那么好准确衡量，咱们下面再说一个书中提到的灾难性失败，看看这条建议中的后一半，“让系统松散耦合”，也就是降低系统耦合性的重要性。

2012年8月1日，华尔街一家大型券商骑士资本的电脑程序出现问题。正常情况下，应该是低买高卖，但是这个程序反过来了，高买低卖，还不断重复。从上午9点30分纽约股市开盘时开始，持续到10点15分，45分钟的时间里，骑士资本遭受了高达4.4亿美元的损失，直接面临破产，最终被竞争对手收购。为什么会发生这么严重的事故呢？竟然只是因为骑士资本的一位 IT 员工，在更新服务器的时候漏掉了一台。这家公司一共有八台服务器，七台都更新了最新版本的交易软件，惟独漏掉了一台，这就足够致命了。当天的交易订单被发送到骑士资本的服务器上时，更新了软件的七台服务器，都正确地将这些订单发送给了纽约证券交易所，但是第八台服务器却开始了疯狂的表演。你看，骑士资本自动地“玩死了自己”。

这起事件，如果放在三十年前是绝对不会发生的，那时，证交所中的交易还通过人与人之间的直接交流来完成。但是现在，交易已经完全电子化、自动化和无缝衔接化，这样的确提升了效率，但也意味着，当出现问题时，紧密耦合的系统也会把问题无限放大。可悲的是，这件事已经过去好几年了，时任骑士资本的首席执行官，依然在强调那位 IT 员工的疏忽，而没有意识到应该给系统增加一些关键节点上的停顿，也就是让系统松散耦合。但是，停顿也不是越多越好，设置停顿的原则，就是不要让这些停顿比系统本身还复杂。比如，对于骑士资本来说，在更新服务器时，不用在更新每台服务器时都停顿，而只需要在更新完毕后停顿一下，用模拟订单先测试一下，测试没问题了，就可以直接应用了。这就是简化系统这条建议，要用增加透明度解决复杂性的问题，用增加摩擦力解决耦合性的问题。

咱们再来看另一条建议，使用结构化决策工具。结构化决策，是指按照确定的模型，根据固定的原则和步骤来决策。书中列举了很多结构化决策工具，比如主观概率区间估计、事先设定标准、事前验尸等等，咱们主要说说作者极力推荐的主观概率区间估计，英文简称叫 SPIES 的这个工具。这个工具是反直觉的，但是应对不确定性的时候特别好用，尤其是如果需要制定计划，预测一个项目或者一项工程完成的时间，这个工具能帮你预测得更准确。

我们都知道，一项工程是一个复杂而紧密耦合的系统，所以经常会出现预测4个月完成，而最后却花了8个月的情况，这就会影响整体计划。为了合理地安排人员和资源，我们需要比较精确地预测工程的完成时间。有个办法是可以进行范围预测，也就是预测一个合理的“最佳情况”和“最差情况”。比如一项工程的完成时间，最短可能是1个月，最长需要8个月，这就预测出来了一个范围。这已经比单纯的点预测有所进步了，但是又太宽泛了，如果想再进一步提升预测的精确性，怎么办？这时候就可以用 SPIES 这个工具了。SPIES 这个工具的特点就是，在进行决策时，要在最低和最高的两个极值之间划分出若干区间，把区间里所有可能出现的结果都进行预测。

我们现在用这个工具来预测一项工程的完工时间。先把施工时间按月分成9个区间，第一个区间是少于1个月，第二个区间是1～2个月，以此类推，最后一个区间是长于8个月。然后，对这9个区间来分别预测。比如在2～3个月这个区间里完工的可能性是35%，那这个区间对应的数据就是35%；再假设3～4个月这个区间里完工的可能性是30%，那这个区间对应的数据就是30%。这样，我们就会得到一组数据。拿到这组数据以后怎么办呢？我们就得按照完工的可能性来估算时间。比如我们要判断，这项工程的完工时间65%可能在什么时候，那就把前边说的35%和30%加起来，看看对应的区间是什么。一对应就发现，是2～4个月，好，我们就可以得出结论，这项工程在2～4月内完成的可能性是65%。这就把预测的范围变得更精确。

大多数人对这个工具可能并不熟悉，也不习惯，因为这不是最直观的预测方式，但是，面对复杂的不确定性，就需要这种概率思维。这就是使用结构化决策工具这条建议，在复杂而又紧密耦合的系统内，要遵循固定的原则和步骤，从而降低决策的风险。

咱们最后再来看一条建议：换一个角度更有效地管理危机。我们平时遇到危机或者什么紧急的事情，很容易紧盯着眼前的事儿不放，眼界很容易就被局限，想不出办法还干着急。这种看问题的角度就属于线性思维。那怎么去有效地应对危机呢？书里提了这么个建议：跳出线性思维，用系统的思维。也就是不仅仅关注危机本身，而是要看到全局。这就要求系统成员，要对系统的所有组成部分都有所了解。这样，一方面可以拥有更全面的视角，避免陷入一孔之见；另一方面可以在必要的时候相互补台，防止危机变得更大。

书中举了一个美国特警队的例子。特警队在平时训练中，会尽可能列出所有可能遇到的情况，做好完备的计划。但现实比想象要复杂得多，在执行任务时，特警队员们还是会遇到跟计划不一样的情况。比如，按计划前方是一条走廊，但实际上却撞上了一堵墙。这时候就没办法按原计划执行，那怎么办呢？特警队在训练的时候，不再去设想一切可能出现的危机，而是着重让队员之间建立充分信任，要求每个队员都要了解其他人的职责，这样，每个队员不再仅仅是一条流水线上的固定角色，而是组成了一个可以互相影响、互相促进的流动协作系统。

举个例子，在执行一次任务时，按照事先的职责设定，第一名特警队员应该向房间右侧移动，执行捕杀任务。但是，这组特警队员却发现，房间里有一个在计划之外的沙发，而这个沙发背后很可能藏着敌人。这时候，第一名特警队员要是只想着怎么挪开这个沙发，那他就可能会先中枪了，但是他经过系统训练，脑子里是一整个任务执行系统，而不是纠结于这个意外的沙发，所以，第一名特警队员看见沙发，马上向相反的方向移动，给队友做掩护。他的队友本来要打掩护，但是马上就明白，自己要向右侧移动，去执行捕杀任务。你看，特警队员们平时训练的系统思维，就帮他们解决了沙发的危机，成功完成了任务。这就是换一个角度更有效地管理危机这条建议，用系统思维跳出危机来管理危机，会有解决危机的新方法。

这是我们介绍的三条建议，分别是设计更透明和松散耦合的系统、使用结构化决策工具和换一个角度更有效地管理危机。你可能现在对此深有体会，但我觉得最关键的，还是要在实际工作和生活中加以应用。特别是，这些建议不仅适用于企业，还适用于个人。比如，很多人都有选择困难症，面对一堆选项不知道该选哪一个，这时候就可以试试书里介绍的结构化工具，在做决定前，设定好各项指标，每个指标赋予权重，逐项打分后进行加权计算，这样就可以做出更好的决策。

书中就提到了一对美国夫妇买房的例子。这对夫妇看房的时候就陷入了选择困难症，一会儿嫌卧室的颜色不好，一会儿嫌露台不行，看了4个多月的房子，还不能决定买哪座。他们觉得不能这样下去了，于是，他们就用了结构化工具里的一个方法，叫作事前设定标准。先把买房需要考虑的因素都列出来，比如卧室数量、社区环境、空气流通性、装修成本、性价比等等，然后从0到100分来给每项因素打分。打完分还不够，还要给每个因素赋予权重。比如对某一个因素完全肯定，那这个因素的权重就是1；要是完全否定，那权重就是-1，每个因素的权重就在1和-1之间。然后再经过一系列复杂的计算，最后他们发现，最终要买的那座房子，也就是得分最高的房子，这座房子在权重上得1分的项目很少，但是也没有负分。妻子就说，看房的时候很容易陷入个人感受里，记不住这么多要考虑的因素，但是把这些因素写下来再打分，就能让她更专注客观的指标，而不是主观的情绪。

除此之外，我个人想分享给你的一个感受是，书中的这些建议，不仅能够单个使用，还能结合起来使用，形成一套组合拳。比如，咱们每年年初都要立 flag，有人一下列出了好多项 flag，但可能到了3月份，热乎劲儿就过去了，最后就成了年年立志、但一个都实现不了的尴尬。按照书中的建议，flag 可以简单一点，只设一个目标，这样完成的可能性会更大一些。怎么完成这个 flag 呢？你可以在关键进度节点之间，加入一些休息或者缓冲时间，这样，目标完成起来也更从容一些。比如，我在跑人生第一场马拉松时，曾立下过跑进4小时的 flag。跑步的前辈给我推荐了很多训练计划，这些计划大多要在3～4个月左右的时间内完成。我就把准备时间拉长到了半年，每过3周，就给自己设定几个连续的休息日。这样既保证每次训练都能按时按质完成，也避免了受伤。比赛时跑出了3小时58分的成绩，实现了目标。

这就是书中这些建议的实际应用，咱们把复杂性和耦合性这两个概念记下来，把建议组合使用起来，无论是在工作还是在生活中，很快都能看到好的变化。

总结

最后再来总结一下。这本书可以说是一本清晰的资料手册和行动指南，咱们主要讲了两方面的内容：第一，出现灾难性失败的原因，是因为系统的复杂性和耦合性在不断增加；第二，要避免灾难性失败，我们重点介绍了三条建议，分别是设计更透明和松散耦合的系统、使用结构化决策工具和换一个角度更有效地管理危机。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。