打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
《崩溃》| 唐帅解读
关于作者
克利尔菲尔德,曾是一名衍生品交易员,2008年亲眼见证华尔街大投行雷曼兄弟的倒闭和全球股市的崩溃,后来创办了一家管理咨询公司,研究如何避免灾难性失败问题。
蒂尔奇克,多伦多大学副教授,开设课程“组织中的灾难性失败”,被联合国称为商学院灾害风险管理领域的最佳课程。
关于本书
本书是一本清晰的资料手册和行动指南,详细分析了什么是灾难性失败,为什么我们这个时代会遇到崩溃性失败,以及如何避免崩溃性失败。
核心内容
因为系统复杂性和耦合性的增加,灾难性失败不仅没有减少,反而随着科技的发展变得更多了。预防灾难性失败,总的方向是降低系统的复杂性和耦合性。预防的方法不仅可以单个使用,还可以组合起来用,形成组合拳。
前言
你好,欢迎每天听本书。今天为你解读的这本书是一本英文新书,还没有中文版,书名直接翻译过来叫作《崩溃》。这本书研究了大量的灾难性失败,并且告诉我们怎样预防灾难性失败。
先来说说,什么是灾难性失败呢?顾名思义,就是后果非常严重、影响特别大的失败结果。举几个例子来感受一下。1979年,美国发生了他们国家核电史上最严重的事故,核反应堆的关键部件,也就是核反应堆的堆芯,在10分钟内就遭到了严重的损毁。再比如2012年,美国华尔街的一家独立券商,因为程序故障,45分钟内就损失了4.4亿美元,一下子就到了破产的边缘。类似的案例书里还讲了很多,这些案例都有几个共同的特点:一个是结果很严重;另一个是引起这些严重后果的都是一个个小问题,如果能解决这些小问题,灾难性失败本来是可以避免的。
《崩溃》这本书就系统地研究了这些失败事件,并且提出了避免失败的建议。这些建议不仅对组织很有价值,对个人的成长也很有意义。你可别以为灾难性失败离我们很远,作者说,我们正处在崩溃的黄金时代,每个人都可能遇到崩溃性事件,我们都需要了解如何避免这样的崩溃。
再来介绍一下这本书的作者。这本书有两位作者,一位是克利尔菲尔德,他曾经是一名衍生品交易员。在2008年金融危机的时候,他亲眼见证了华尔街大投行雷曼兄弟的倒闭和全球股市的崩溃,于是,他创办了一家管理咨询公司,研究“如何避免灾难性失败”这个问题,对于这个问题很有心得。另一位作者叫蒂尔奇克,是多伦多大学的副教授。他开设了一门课程叫作“组织中的灾难性失败”,被联合国称为商学院灾害风险管理领域的最佳课程。在本书刚刚出版不久,两位作者就被邀请到谷歌公司,做了一场关于本书的专题演讲。他们表示还要出版本书的续集,我们也会持续关注。
接下来,我将从两个部分来为你解读这本《崩溃》。首先,我会为你介绍导致灾难性失败的原因是什么;其次,我再来介绍作者对于避免灾难性失败给出了哪些建议。
第一部分
首先咱们来说说,导致灾难性失败的原因是什么。
你可能会觉得,既然是灾难性失败,那么原因肯定也是灾难性的,你可能还会觉得,现在科技这么发达,灾难性失败应该变得越来越少了。然而,书中在分析了大量实际案例后,却得出了一个反常识的结论:灾难性失败,都是由一个个不起眼的小错误,像滚雪球一样叠加而成的,在很短的时间内就能导致系统的崩溃;而且,随着社会的进步,灾难性失败不是更少了,而是更多了。作者提出来一个概念,说我们正在遭遇“进步的悖论”。什么是进步的悖论呢?就是科技的发展,给我们提供了前所未有的超强能力,但同时,也让微小的错误或者简单事故的破坏力变大了,所以,灾难性失败发生的可能性也更大了。
这里要介绍一个理论,叫作“正常事故理论”。这个理论的意思是说,当一个组织的内部,组成部分复杂,而且各部分高度互动、紧密相连,那么发生事故就是正常的。这一理论是耶鲁大学社会学荣誉教授查尔斯·佩罗,在上世纪80年代提出来的。佩罗是怎么得出的这个理论呢?这就要说到美国核电史上最严重的核泄漏事故,也就是三哩岛核电站核泄漏事故,佩罗参与了事故调查。官方的调查报告,把这起事故归罪于一名员工的错误操作,但是佩罗作为一名社会学家,他觉得这起错误操作,仅仅是导致事故的众多小错误之一。
这起事故是从一个给水泵的停转开始的。由于备用给水系统中的一个隔离阀,在此前的例行检修中没有按规定打开,导致备用泵没有按照预设的程序自动启动,此后又在短短的10分钟内,相继发生了卸压阀故障、减压水槽水满外溢、反应堆操作员操作失误等一系列小事故。具体的反应原理非常专业,咱们就不具体解释了,但你可能会有一个疑问,这么重要的核电站设施,这些故障发生后应该有警报响起才对啊?是的,警报确实响了,但竟然没有引起任何人的注意。因为控制室内的各项指示器显示一切正常,所以,核电站的工作人员虽然听到警报响了,但是不知道为什么响,无处下手。短短10分钟之内,核反应堆的堆芯严重损毁,已经无可挽回。
三哩岛核泄漏事故,是一起典型的“正常事故”,它不是由外部冲击造成的,而是由技术故障和人员操作错误共同造成的。佩罗从中分析出,决定灾难性失败发生的主要因素有两个:一个是系统的复杂性,另一个是系统的耦合性。我们分别来看。
先说系统的复杂性。在这个层面上,造成灾难性失败的,是组成系统的各个部分本身。系统的复杂性越大,灾难性失败的可能性就越大。简单系统是线性的,像是一条装配流水线,哪儿出错了一目了然,但是,复杂系统是非线性的,像是一张网,系统的各个部分会以隐藏的、意想不到的方式相互作用,故障的来源非常隐蔽。我们既不可能预测出所有可能会出错的地方,也无法准确预测出系统中某处小故障可能导致什么后果。更糟糕的是,复杂系统还有一个特点是,需要依靠间接指标来评估大多数情况。比如核泄漏事件,我们就没法直接派人去看核反应堆发生了什么问题,而只能通过压力、水流量等指标,拼凑出一个核反应堆可能的完整情况。这是复杂性。
另一个因素是系统的耦合性。耦合性是工程学的一个术语,用来描述系统各部分之间连接的紧密程度。系统的耦合性越大,灾难性失败的可能性越大。为什么会这样呢?因为系统耦合性很大时,各部分之间几乎没有缓冲,犯错的余地非常小,一部分的问题很容易影响其他部分,灾难性失败也就会相当频繁。这是耦合性。
当复杂性和耦合性结合起来,就会产生叠加效果,会更快地给系统带来危险。这种复杂性和耦合性,存在于几乎所有的地方,甚至咱们家里也有。书中就举了感恩节晚餐的例子。
在美国,感恩节就像咱们中国的春节一样,非常重要,感恩节晚餐就相当于咱们的年夜饭。传统的感恩节晚餐要有火鸡、配菜和南瓜派,这些都需要用到烤箱,而一般每个家庭只有一个烤箱,这让感恩节当天的时间非常紧张。由于各道工序是紧密耦合的,哪一道出现问题,整顿晚餐就很难准备好。你可能觉得感恩节的晚餐准备难度并不大,但对于吃汉堡三明治、喝牛奶长大的美国人来说,这真算是一顿很复杂的晚餐了。光是烤火鸡一项,就够他们头疼的了。为了避免把火鸡烤糊,他们可是没少想辙,有往火鸡上插一个能被热气弹出的塑料纽扣的,还有把温度计放到火鸡里测温度的。但这些方法都不可靠,总会出现外面的肉已经熟了、里边的肉还没熟,或者鸡胸肉熟了、鸡腿肉还没熟的情况。而烤一只火鸡,平均需要5~6个小时,也就是说,一天之内,如果一只火鸡烤失败了,根本没有时间再烤另一只。所以,美国杂志征集“感恩节晚餐失败故事”时,收到了雪片般飞来的信件。
这就是我们必须面对的现实,复杂性和耦合性已经无处不在,无论是组织还是个人,都会面临这些复杂的、紧密耦合的系统,而且对这些系统越来越依赖,这让我们面临巨大的崩溃风险。这就是我要给你说的第一部分内容,我们所处的世界中,由于系统的复杂性和耦合性都在快速增加,灾难性失败也越来越多。
第二部分
那么,如何避免灾难性失败呢?这正是我要在第二部分里给你讲的内容。
我们显然不能要求坐着时光机,回到从前那个更简单直接的世界,相反,我们要做的,是认清和接受现实,弄清楚如何管理更复杂、更紧密耦合的新系统。书中一共给出了七条建议,我先给你简单介绍一下,分别是设计更透明和松散耦合的系统、使用结构化决策工具、认真对待警示信号、鼓励怀疑、建立多元化的团队、向局外人学习,以及换一个角度更有效地管理危机。这些建议总的方向是降低系统的复杂性和耦合性,但作者们也指出,不能一味地降低,也得保留必要的复杂性和耦合性。我从这七条建议里挑出来给我启发最大的三条,重点说一说。
首先咱们看这一条,设计更透明和松散耦合的系统,也就是简化系统。这看上去没什么稀奇的,但实际做起来并不容易。对于预防灾难性失败,人们普遍的第一反应是增加安全防护措施,但是这些安全措施会成为系统的一部分,增加复杂性,反而会成为系统崩溃的导火索。
书中就讲了2017年奥斯卡史上最大乌龙的例子。当天晚上,奥斯卡最重要的奖项“最佳影片奖”被颁错了,本来应该颁给一部叫作《月光男孩》的电影,但是颁奖嘉宾拿错了信封,宣布另一部电影《爱乐之城》获得这个大奖。《爱乐之城》的剧组都上台领奖、发表获奖感言了,组委会又发现出错了,赶紧改正说获奖的不是《爱乐之城》,是《月光男孩》。为什么会出现这么荒唐的错误呢?原来,当天晚上最佳影片奖是最后一个颁布,颁奖嘉宾拿到的信封不是最佳影片奖,而是最佳女主角奖,嘉宾颁奖当时很激动,没仔细看信封里的内容,看见了《爱乐之城》的名字就直接宣布出来,闹了个大乌龙。
你可能会说,奥斯卡这么重要的颁奖礼,组委会为什么不能多加点安全措施,保证别出错呢?诶,就是因为安全措施做过了头。负责监督颁奖典礼的是全球著名的会计师事务所普华永道,他们采取了双保险箱系统,也就是把两个一模一样的获奖名单信封,放在两个不同的保险箱里,由两个会计师分别保管。这么做的本意,是为了更加保险,防止出错,但是每个奖项多了一个信封,也就增加了发生意外的可能性。而且不管什么奖,信封都一样,标注奖项类别的字体又很小,同时,负责保管保险箱的一位会计师也很激动,颁奖期间还拍了好多名人照片发到自己的社交网站上,这么一来,就弄错了信封。按顺序给颁奖嘉宾发信封,这件事看起来够简单吧?可是,一个个小疏忽叠加起来,最终,最佳影片奖的颁奖嘉宾拿到手里的,成了已经颁过的最佳女主角的信封,后面的错误也就难以避免了。
书中并没有提及事件的后续发展,但我觉得有必要讲给你,因为这实在是一个特别有趣的负面典型。到了2018年的颁奖典礼,普华永道是明显吓怕了,为了防止乌龙事件再次出现,真可谓是无所不用其极。主要的几招我给你介绍一下:第一招是换人,并严禁在颁奖礼时使用手机;第二招是大老板亲自压阵;第三招是加人,增加的第三个人,手里也有一份完整的得奖名单;第四招是要求颁奖嘉宾在拿到信封后,先跟舞台导演检查一遍,以确保没有拿错信封。不知道你晕了没有,反正我是有点乱。这些招数简直是把递信封这件事,生生搞成了颁奖礼上难度系数最高的事情,没有之一。
本书的作者在谷歌做演讲时也讲到了这个例子,但是他们对这些招数连提都没提,唯一关注的是颁奖信封的改变。在2017年,颁奖信封是红底金字,设计那绝对是高端大气上档次,但是信封上的字很小,不认真看真的是很难看清楚,现场的镁光灯再一照,估计颁奖嘉宾更看不清楚了。到了2018年,颁奖信封变成了黑底白字,奖项名称除了标在信封中心,还在左上角和右下角用大字体又标注了一遍。这设计有点土得掉渣,看上去好像配不上奥斯卡,但是让奖项名称这一关键指标变得清晰可见。这是简化系统最直接的一招,也是最管用的一招。
奥斯卡乌龙事件造成的经济损失,不那么好准确衡量,咱们下面再说一个书中提到的灾难性失败,看看这条建议中的后一半,“让系统松散耦合”,也就是降低系统耦合性的重要性。
2012年8月1日,华尔街一家大型券商骑士资本的电脑程序出现问题。正常情况下,应该是低买高卖,但是这个程序反过来了,高买低卖,还不断重复。从上午9点30分纽约股市开盘时开始,持续到10点15分,45分钟的时间里,骑士资本遭受了高达4.4亿美元的损失,直接面临破产,最终被竞争对手收购。为什么会发生这么严重的事故呢?竟然只是因为骑士资本的一位 IT 员工,在更新服务器的时候漏掉了一台。这家公司一共有八台服务器,七台都更新了最新版本的交易软件,惟独漏掉了一台,这就足够致命了。当天的交易订单被发送到骑士资本的服务器上时,更新了软件的七台服务器,都正确地将这些订单发送给了纽约证券交易所,但是第八台服务器却开始了疯狂的表演。你看,骑士资本自动地“玩死了自己”。
这起事件,如果放在三十年前是绝对不会发生的,那时,证交所中的交易还通过人与人之间的直接交流来完成。但是现在,交易已经完全电子化、自动化和无缝衔接化,这样的确提升了效率,但也意味着,当出现问题时,紧密耦合的系统也会把问题无限放大。可悲的是,这件事已经过去好几年了,时任骑士资本的首席执行官,依然在强调那位 IT 员工的疏忽,而没有意识到应该给系统增加一些关键节点上的停顿,也就是让系统松散耦合。但是,停顿也不是越多越好,设置停顿的原则,就是不要让这些停顿比系统本身还复杂。比如,对于骑士资本来说,在更新服务器时,不用在更新每台服务器时都停顿,而只需要在更新完毕后停顿一下,用模拟订单先测试一下,测试没问题了,就可以直接应用了。这就是简化系统这条建议,要用增加透明度解决复杂性的问题,用增加摩擦力解决耦合性的问题。
咱们再来看另一条建议,使用结构化决策工具。结构化决策,是指按照确定的模型,根据固定的原则和步骤来决策。书中列举了很多结构化决策工具,比如主观概率区间估计、事先设定标准、事前验尸等等,咱们主要说说作者极力推荐的主观概率区间估计,英文简称叫 SPIES 的这个工具。这个工具是反直觉的,但是应对不确定性的时候特别好用,尤其是如果需要制定计划,预测一个项目或者一项工程完成的时间,这个工具能帮你预测得更准确。
我们都知道,一项工程是一个复杂而紧密耦合的系统,所以经常会出现预测4个月完成,而最后却花了8个月的情况,这就会影响整体计划。为了合理地安排人员和资源,我们需要比较精确地预测工程的完成时间。有个办法是可以进行范围预测,也就是预测一个合理的“最佳情况”和“最差情况”。比如一项工程的完成时间,最短可能是1个月,最长需要8个月,这就预测出来了一个范围。这已经比单纯的点预测有所进步了,但是又太宽泛了,如果想再进一步提升预测的精确性,怎么办?这时候就可以用 SPIES 这个工具了。SPIES 这个工具的特点就是,在进行决策时,要在最低和最高的两个极值之间划分出若干区间,把区间里所有可能出现的结果都进行预测。
我们现在用这个工具来预测一项工程的完工时间。先把施工时间按月分成9个区间,第一个区间是少于1个月,第二个区间是1~2个月,以此类推,最后一个区间是长于8个月。然后,对这9个区间来分别预测。比如在2~3个月这个区间里完工的可能性是35%,那这个区间对应的数据就是35%;再假设3~4个月这个区间里完工的可能性是30%,那这个区间对应的数据就是30%。这样,我们就会得到一组数据。拿到这组数据以后怎么办呢?我们就得按照完工的可能性来估算时间。比如我们要判断,这项工程的完工时间65%可能在什么时候,那就把前边说的35%和30%加起来,看看对应的区间是什么。一对应就发现,是2~4个月,好,我们就可以得出结论,这项工程在2~4月内完成的可能性是65%。这就把预测的范围变得更精确。
大多数人对这个工具可能并不熟悉,也不习惯,因为这不是最直观的预测方式,但是,面对复杂的不确定性,就需要这种概率思维。这就是使用结构化决策工具这条建议,在复杂而又紧密耦合的系统内,要遵循固定的原则和步骤,从而降低决策的风险。
咱们最后再来看一条建议:换一个角度更有效地管理危机。我们平时遇到危机或者什么紧急的事情,很容易紧盯着眼前的事儿不放,眼界很容易就被局限,想不出办法还干着急。这种看问题的角度就属于线性思维。那怎么去有效地应对危机呢?书里提了这么个建议:跳出线性思维,用系统的思维。也就是不仅仅关注危机本身,而是要看到全局。这就要求系统成员,要对系统的所有组成部分都有所了解。这样,一方面可以拥有更全面的视角,避免陷入一孔之见;另一方面可以在必要的时候相互补台,防止危机变得更大。
书中举了一个美国特警队的例子。特警队在平时训练中,会尽可能列出所有可能遇到的情况,做好完备的计划。但现实比想象要复杂得多,在执行任务时,特警队员们还是会遇到跟计划不一样的情况。比如,按计划前方是一条走廊,但实际上却撞上了一堵墙。这时候就没办法按原计划执行,那怎么办呢?特警队在训练的时候,不再去设想一切可能出现的危机,而是着重让队员之间建立充分信任,要求每个队员都要了解其他人的职责,这样,每个队员不再仅仅是一条流水线上的固定角色,而是组成了一个可以互相影响、互相促进的流动协作系统。
举个例子,在执行一次任务时,按照事先的职责设定,第一名特警队员应该向房间右侧移动,执行捕杀任务。但是,这组特警队员却发现,房间里有一个在计划之外的沙发,而这个沙发背后很可能藏着敌人。这时候,第一名特警队员要是只想着怎么挪开这个沙发,那他就可能会先中枪了,但是他经过系统训练,脑子里是一整个任务执行系统,而不是纠结于这个意外的沙发,所以,第一名特警队员看见沙发,马上向相反的方向移动,给队友做掩护。他的队友本来要打掩护,但是马上就明白,自己要向右侧移动,去执行捕杀任务。你看,特警队员们平时训练的系统思维,就帮他们解决了沙发的危机,成功完成了任务。这就是换一个角度更有效地管理危机这条建议,用系统思维跳出危机来管理危机,会有解决危机的新方法。
这是我们介绍的三条建议,分别是设计更透明和松散耦合的系统、使用结构化决策工具和换一个角度更有效地管理危机。你可能现在对此深有体会,但我觉得最关键的,还是要在实际工作和生活中加以应用。特别是,这些建议不仅适用于企业,还适用于个人。比如,很多人都有选择困难症,面对一堆选项不知道该选哪一个,这时候就可以试试书里介绍的结构化工具,在做决定前,设定好各项指标,每个指标赋予权重,逐项打分后进行加权计算,这样就可以做出更好的决策。
书中就提到了一对美国夫妇买房的例子。这对夫妇看房的时候就陷入了选择困难症,一会儿嫌卧室的颜色不好,一会儿嫌露台不行,看了4个多月的房子,还不能决定买哪座。他们觉得不能这样下去了,于是,他们就用了结构化工具里的一个方法,叫作事前设定标准。先把买房需要考虑的因素都列出来,比如卧室数量、社区环境、空气流通性、装修成本、性价比等等,然后从0到100分来给每项因素打分。打完分还不够,还要给每个因素赋予权重。比如对某一个因素完全肯定,那这个因素的权重就是1;要是完全否定,那权重就是-1,每个因素的权重就在1和-1之间。然后再经过一系列复杂的计算,最后他们发现,最终要买的那座房子,也就是得分最高的房子,这座房子在权重上得1分的项目很少,但是也没有负分。妻子就说,看房的时候很容易陷入个人感受里,记不住这么多要考虑的因素,但是把这些因素写下来再打分,就能让她更专注客观的指标,而不是主观的情绪。
除此之外,我个人想分享给你的一个感受是,书中的这些建议,不仅能够单个使用,还能结合起来使用,形成一套组合拳。比如,咱们每年年初都要立 flag,有人一下列出了好多项 flag,但可能到了3月份,热乎劲儿就过去了,最后就成了年年立志、但一个都实现不了的尴尬。按照书中的建议,flag 可以简单一点,只设一个目标,这样完成的可能性会更大一些。怎么完成这个 flag 呢?你可以在关键进度节点之间,加入一些休息或者缓冲时间,这样,目标完成起来也更从容一些。比如,我在跑人生第一场马拉松时,曾立下过跑进4小时的 flag。跑步的前辈给我推荐了很多训练计划,这些计划大多要在3~4个月左右的时间内完成。我就把准备时间拉长到了半年,每过3周,就给自己设定几个连续的休息日。这样既保证每次训练都能按时按质完成,也避免了受伤。比赛时跑出了3小时58分的成绩,实现了目标。
这就是书中这些建议的实际应用,咱们把复杂性和耦合性这两个概念记下来,把建议组合使用起来,无论是在工作还是在生活中,很快都能看到好的变化。
总结
最后再来总结一下。这本书可以说是一本清晰的资料手册和行动指南,咱们主要讲了两方面的内容:第一,出现灾难性失败的原因,是因为系统的复杂性和耦合性在不断增加;第二,要避免灾难性失败,我们重点介绍了三条建议,分别是设计更透明和松散耦合的系统、使用结构化决策工具和换一个角度更有效地管理危机。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
结合《崩溃》一书, 谈船舶管理中如何避免重大及灾难性事故
“我花3万块学习,最后却丢了工作”:职场崩溃式失败怎么破?
什么样的系统容易崩溃?面对复杂系统,我们要注意这3点
在这个极易崩溃的时代,我们需要学会如何避免系统崩溃的方法
30例重大事故照片
30个灾难性事故提醒我们注意安全01
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服