空中浩劫 第二十五季

空中浩劫S25E01:夏威夷岛际航空810号班机

浩劫描述

  • 右引擎失效,机组2人首次判断正确识别出右引擎失效

  • 紧张状态下,副驾驶在调整飞机方向时同时将两个引擎油门降低到最低速,但是没有报告给主驾驶

  • 主驾驶让副驾驶检查仪表,副驾驶报告左引擎失效,因为当时仪表显示两个引擎都降低,但是左引擎更低(报告错误,但是主驾驶没有复查,直接采信),实际上飞机上安装的两个引擎多少都是有差别的,在降低到最低时有差别误导了诊断

    • 737-200的引擎是六七十年代生产,当时没有引擎监测设备

    • 由于目前大多数退役,少量留存引擎已无法加装监控引擎的设备

  • 由于误判为左引擎故障,所以继续使用实际故障的右引擎飞行,引擎温度过高无推力最后坠海

思考

  • 突发故障时由于没有很好的监控设备,完全依赖运维人员的经验判断

  • 初级运维人员由于紧张以及经验不足,没有记录和汇报完整的故障处理步骤,而漏报的操作步骤可能对故障产生极大影响(可能加剧了故障)

  • 如果初级运维人员判断错误,高级运维人员没有核实就采信并基于此进行判断,往往可能是错误的判断,对后续故障抢修可能制定了错误的方案

    • 不要直接采信别人的报告,必须交叉验证,按照实际数据进行复核

  • 灵敏和详尽的监控是运维最关键的依仗,大规模分布式集群只有依靠监控才能正常运维,传统的SA靠经验一台台检查是无法及时判断超大规模集群的故障原因,也无法及时采取正确的解决方案

空中浩劫S25E02:塔霍玛航空185号班机

浩劫描述

  • 坠机的技术原因是机长没有按照操作规范执行: 在平衡邮箱的操作时必须先关闭交输阀

    • 没有关闭交输阀导致左油箱燃油在提供左右引擎时还同时灌入右油箱迅速抽干

    • 由于交输阀没有关闭,左油箱泵继续工作导致抽入空气并灌入到右油箱

    • 此时左油箱油耗尽,油油箱的燃油由于进入含水空气而劣化无法正常使用

    • 左右引擎同时熄火

  • 包含了多个叠加错误操作步骤最终导致crash:

    • 机长没有按照操作流程及时进行check list(晚了10分钟),按规定降落前3000m以上就需要进行降落检查,此时发现油量表异常是有时间挽救的: 事故当时飞行高度过低导致没有足够时间纠正燃油问题

    • 机长在开启油箱平衡时,根据自己获得的飞行员口口相传的经验(实际只是谣传交输阀关闭可能会有阀门故障),有意识地不关闭交输阀就开启燃油平衡。虽然以前没有遇到过故障,但这次却是致命的

    • 飞机起飞前检查货物平衡表,由于手持PDA故障改为手工计算,但机长来不及起飞前完成计算,匆忙在飞行过程中计算,导致机长几乎没有正常履行飞行中的监测和支持工作

    • 由于没有关闭交输阀导致飞机燃油不平衡,副驾驶员其实在飞行过程中已经发现飞机异常右斜手动扳正非常费力,但机长漫不经心忽视了副驾驶的7次提醒和疑问,没有针对异常立即进行全机检查

    • 飞机设计上的缺陷也部分导致飞行员忽视了错误: 飞行座椅调节前后时如果调节到靠后位置,飞机的燃料仪表会被操作杆遮住导致不容易一次性看到所有仪表内容(但这次坠机调查哦由于机舱损坏未确认这个问题)

思考

  • 很多互联网公司实际上没有类似航空手册一样的详细运维步骤,很多只有大概的记录,这导致每次故障处理以及异常排查都依赖人员的能力,执行效果千差万别。理想的状态下,全球的IT运维应该有一个公开的的操作规范指南,并且每个故障都要有复盘和改进的可执行操作步骤。

  • 实际上不可能全球IT公司的技术是共享的,所以可行的是一个公司内部的技术操作和技术故障进行共享和不断总结,有一个类似事故调查报告,并且推动整个公司集团内部的运维操作改进。但这是一个有代价和成本的工作,企业可能会认为收益不足以覆盖成本。

  • 很多情况下操作手册是有的,但是操作手册中的步骤背后的原因是缺乏的,这导致员工无法理解操作的原因,也不知道随着环境改变这个手册步骤是否需要修订,就像软件文档一样,随着时间而腐败。理想状态下,应该类似软件维护一样维护手册,不断进行更新和审核。

    • 重要的是命令(操作)背后的原因,真正理解并全面了解影响

    • 只有理解才能修改,才能知道执行的结果和预期,才能处理异常

  • IT公司可能意识不到操作故障带来的损失,因为损失不是直接面对的,哪怕背后导致巨大的财产和生命损失。我相信类似google和AWS这样体量的每次故障,背后很有可能导致全球某个公司某个人受到极其重大的损失,所以 IT运维人员要敬畏生产系统 ,而不是仅仅将其视为一个简单的程序运行。

空中浩劫S25E03:三佛齐航空182号班机

浩劫描述

  • 印尼作为热带国家,气候影响较大(雷暴和季风雨频繁),印尼10年内有超过700人因空难丧生

  • 印尼作为岛国,飞机航班非常密集,并且是短途航班,采用波音737-500短途飞机

  • 机长和副驾驶为避免飞机经过雷暴区域,将飞机右偏航绕行,但飞机突然失控螺旋坠落,以超过音速的撞击速度坠毁于爪哇海,飞机完全解体,机上62人全部遇难

  • 调查显示飞机坠毁时左右引擎油门杆处于完全不同的设定(左右油门杆大幅错位):右引擎全功率运行,而左引擎则慢速状态 — 这也就是飞机为何偏离航路,并倾斜俯冲

  • 发生异常时飞机处于自动飞行状态,异常15秒后机长切段自动驾驶改为人工操作,但是继续错误左转

  • 事后调查发现该坠毁飞机从2012年被三佛齐航空租用以来到此次坠机前5天,共发生64起自动油门故障报告:但是报告非常粗略,完全没有提到油门杆错位问题,仅简单标记为不可用或者有问题,几乎没有具体说明

    • 维修人员仅简单清洁了自动油门计算机的插头,自检一下自动油门系统,然后重新安装回去

    • 此外维修人员也只做了计算机测试,检查诊断是否有故障

    • 这种指标不治本的维护,导致自动油门故障完全没有解决,持续不断发生异常,直到最后182号班机坠毁

    • 飞机在维护中更换过8次计算机模块和组件,但是这种更换也只做简单测试,并没有验证是否解决了自动油门故障

      • 计算机自测为何不能发现自动油门故障的原因: 因为自测程序有局限性,只检查自动油门计算机系统和供电系统,并不能检查自动油门的机械故障

      • 三佛齐航空的维修人员从来没有检查过飞机的油门操纵机械部分,这导致多年的自动油门故障隐患一直没有真正排除过

    • 调查人员发现三佛齐航空的同批次波音737-500飞机的油门钢索长时间没有维护清理,润滑油已经干枯并且钢索纽结,这也就是为何油门杆非常卡顿,自动飞行时右油门杆无法降低回正确推力位置的原因

    • 钢索出现问题的飞机是绝度不适航的,每位航线维修和工程人员都明白的常识: 控制面绝对不能出现钢索纽结或摩擦问题

      • 航司的管理层拒绝自动油门反复故障需要停飞检修,原因是没有没有满足法律要求的重复性故障标准

      • 印尼交通部的相关法规:同一架飞机的某个问题在15次飞行中发生3次,才视为重复性故障:

        • 三佛齐航空182号航班的自动油门故障率从未达到这个条件(这个标准实际上要求重复故障率达到20%)

        • 这个制度让三佛齐航空的飞机(维护)缺陷得以蒙混过关

    • 波音737经典系列(CL)有一套系统可以断开自动油门,称为巡航推力分离监控系统(Cruise Thrust Split Monitor, CTSM)

      • CTSM系统可以检测左右引擎之间任何明显的推力差异

      • 当油门错位严重到自动驾驶无法处理前会断开自动油门

      • 很不幸,虽然这次坠机前满足了CTSM断开自动油门的3个条件,但是异常和断开之间有30秒时间,断开时间太晚了

    • 调查发现在开启了自动飞行后,机组飞行员忽略了观察飞机状态,犯了三大错误:

      • 没有留意观察主飞行显示器(实际上飞机没有右转,而是在左倾)

      • 没有观察操纵杆(飞机右转以后,操纵杆没有回正)

      • (最关键)没有检查油门杆(导致没有发现推力不均衡)

    • 《自动化的讽刺》(Ironies of Automation,又称自动化悖论)是伦敦大学认知心理学家苏珊.班布里奇(Lisanne Bainbridge)1983年在《自动化》(Automatica)发表的一篇研究论文。指出虽然越来越多的工作可以交由自动化完成,然而对有关操作人员更需要加强训练,对自动化系统进行监控,在出现罕见问题时作出及时干预:

      • 机组越来越相信自动化系统可以安全驾驶飞机,所以没有想到飞机也会有遇到问题的时候

      • 飞行过程机组没有观察仪表,盲目信任自动驾驶,并且在突发倾斜警告时手忙脚轮,错误操作(拼命拉动操纵杆,而没有调整此时不平衡的引擎推力)导致飞机加速翻转坠毁

      • 直到飞机接近坠毁发出超速警告,机长才意识到右油门推杆一直在全功率状态,此时他拉回右油门推杆,但为时已晚无力回天(副驾驶在整个过程中按理应该为机长提供飞机仪表状态,但显然这次事故中没有承担好副驾驶的责任)

    • 最终事故报告:

      • 飞行员没有留意飞机飞行期间所显示的信息是主要原因(对自动化过于信任,麻痹大意)

      • 航线维修人员和管理层都存在维护方面的失职,没有做好自动油门故障的记录和维护

        • 飞行人员没有正确报告故障(自动油门不一致)

        • 维修人员没有检修油门机械钢索(导致长期缺乏清理和润滑,为事故埋下隐患)

        • 管理层墨守所谓的交通部法规,漠视频繁的自动油门故障报告

思考

  • 小错随时会酿成大祸

  • 运维人员往往非常信任自动化系统,而实际上自动化系统屏蔽了底层运作的细节,使得运维人员的技能越来越弱化

    • 当出现自动化系统无法处理的异常时,运维人员往往手忙脚乱,甚至错误操作

      • 缺乏对底层技术的掌握

      • 缺少故障演练

    • 作为大型IT系统一定要演练自动化系统完全失效时的人工操作方案

      • 甚至需要演练自动化系统错误时人为干预和纠正的应急方案

      • 需要不断演练不同角度方案

  • 日常运维时一定要观察监控指标并不断进行深入的分析和排查

    • 累积的小问题会在关键时刻爆发导致无法挽回的损失

    • 不要做表面维护,欺骗自己已经解决了故障隐患

    • 出现异常深入分析和解决时,要有充分的论证说明故障的原因以及解决的针对性和有效性,否则就是没有解决隐患

  • 管理层不要以法律法规或者流程规范为自己开脱责任

    • 异常的频繁出现就是警示,不重视解决管理层是有管理责任的

空中浩劫 S25E04: 卢森堡航空9642号航班

浩劫描述

  • 卢森堡机场当天大雾弥漫,数架飞机在盘旋等待天气好转再降落,9642号航班原本也计划等待或飞往备用机场

  • 突然调度指示 9642号航班 首位降落,打断了飞行员原本计划,导致其心生不满情绪

  • 双方沟通降落能见度距离至少需要300米,此时机场能见度不满足,正在犹豫时,突然发现能见度刚好满足,则再次指示下降(波折)

  • 9642号航班航班飞行员没有按照标准检查清单检查,而是随意跳跃检查降落步骤,甚至没有设置降落导航

  • 事故原因是多个因素叠加触发福克50飞机的计算机误判,进入飞行中绝不可出现的反桨模式,导致飞机快速坠毁:

    • 根据事后分析降落轨迹,其降落轨迹高度比标准估计高了91米,这种情况下飞行员一边需要调整高度一边沿轨迹降落难度极大,叠加当时天气不佳

    • 在接近近进点时候,飞机高度超过标准,此时飞行员有想法要复飞,但是突然接到调度员说能见度达标,要求9642号航班降落,打乱了飞行员的计划

    • 飞行员为了能够强制降落,忙于紧急降低飞机高度,此时操作手忙脚乱

    • 机长为快速降低到正确高度,采用了非标准操作,将飞行模式切换到地面模式(能够产生反推力)

    • 但是这种模式在多个因素叠加下,进入反桨模式(螺旋桨反转):飞行中有防误操作设备(电子锁机制)禁止在飞行中进入反桨模式 - 福克50型飞机到油门杆存在某些情况下意外解除慢车锁(十四年前有飞行记录报告): 放下起落架时有可能发出电子脉冲信号激活飞机的防滞控制系统,计算机会错误判断飞机已经接地,从而解除飞行慢车锁 - 实际上是多个因素同时存在会触发计算机误判,虽然福克公司认为这种概率极低,但是这次事故恰恰就是集中了出发电子故障的3个因素(慢速地面模式,放下起落架,两襟翼放下 )

    • 当副驾驶放下起落架,计算机误判突然解除飞行慢车锁,导致一声巨响后飞机进入反桨模式,仅仅20秒之后飞机坠毁,导致20人丧生

  • 为何飞机制造商在十四年前就知道的故障隐患却没有处理?

    • 起落架导致的脉冲信号时间极短,并且要同时满足多个条件叠加才会误触错误模式(概率非常低不代表可能性为0),制造商认为没有必要修改

    • 防滞组件的整改方案其实非常简单: 在电路中加入一个电容和一个二极管,就能杜绝产生这道脉冲

    • 福克公司没有将整改方案最为强制执行的要求(全球同型号飞机需要停飞修改)发布,而是建议,这导致卢森堡航空公司没有执行

  • 事故报告

    • 出现了某个错误,则必须处理,遗留问题会在很久以后成为无可挽回事故的触发因素

    • 飞行员没有按照标准的操作流程,人为选择步骤进入了飞机bug触发的范围,任何非标准操作在航空行业内都可能超出飞机的限制(机长被判过失杀人罪,罚款及3年半缓刑监禁)

思考

  • 永远要遵守标准操作程序(你无法知道每个标准操作背后凝聚了多少经验教训)

空中浩劫 S25E05: 洛根航空670A号班机

浩劫描述

  • 航班起飞前一天,机场地区暴风雪;起飞时天气转好,气温回升到0上

  • 飞行员在起飞检查时遇到了右部电机无法启动问题,找了维修人员检修,当时检修将电路重新接上恢复,飞行员按照维修人员建议进行了半小时暖机操作

  • 起飞后不久,机长让副驾驶启动防冰装置,此时突然左右引擎熄火,飞机失去动力

  • 由于飞机已经在海上飞行,且飞行高度不高(大约500+米),没有时间排查双引擎问题,机长被迫进行水上迫降(事后分析机长的操作是正确的,近乎标准化的完美操作)

  • 但是很不幸,幸运之神没有眷顾这架航班,飞机在无动力情况下迫降睡眠,碰撞导致飞机折毁,虽然离岸边只有65米,但是两位飞行员没有能够逃出生还

  • 飞机引擎检查发现故障时飞机引擎没有任何机械故障,整个飞机动力系统是正常的

  • 但是经过录音对比,调查员发现飞机引擎熄火时的异常声音显示出现了喘振,这种情况是飞机进气不足导致燃烧缺氧而熄火:根据技术参数,当进气低于78%的时候才会发生这种异常

  • 为什么会出现进气不足,为什么在飞机打开防冰装置突然熄火?

    • 调查发现起飞前一天,由于暴风雪天气恶劣,该飞机在机场停放了10小时以上

    • 由于该机场是洛根航空的中转机场,航司没有按照飞机制造商建议为飞机引擎提供引擎遮盖

    • 飞机停放方向正对暴风雪风向,导致大量的飞雪进入引擎,事后实验证明,飞雪能够进入未遮盖引擎上部的燃烧室(通常看不见的地方,非常深)

    • 第二天飞机起飞前检修电路,飞行员按照机械检修师建议做了半小时引擎暖机,谁也没有想到虽然飞机外部冰雪已经清理,但是引擎燃烧室积雪由于引擎暖机大量流入引擎下部,并逐渐由于低温重新凝结成冰(此时进气口已经降低了进气率,但还没有达到危险的喘振进气比率78%)

    • 飞机起飞后,由于机长担心冰雪天飞机引擎结冰,让副驾驶开启了防冰装置,不幸的是,防冰装置原理是在进气口增加拦截,这种情况下进一步降低了进气率,直接跌倒28%进气率导致双引擎熄火

    • 不幸的是此时飞机位于海上且飞行高度不能满足排障时间要求,虽然飞行员经验丰富,最后危机时刻所有操作一气呵成都是正确完美的,然而命运之神没有眷顾,依然机毁人亡

思考

  • 正如调查组最后总结: 严重空难很少由单一原因造成,这次事故的因素虽然难以预见,但本来都可以避免的

  • 每一个问题单独看并不致命,也有排除和挽救的措施,然而世界就是无数的偶然碰撞而成,所以一定要在问题出现时解决,而不是怀着侥幸心理,上次没有出现事故,这次也一样

  • 一块小小的引擎盖板缺失就导致了这样惨痛的事故,真是非常非常让人震撼