=====================================================================================================================================================================================
一、事件简述
2024年7月19日下午,微软发布消息称,旗下Microsoft 365系列服务出现访问中断,受影响的包括但不限于Microsoft 365各个应用,以及微软Xbox等。根据微软官方消息,故障始于美国中部的Azure区域数据中心。
在微软报告系统服务中断后,从美国到亚洲,全球各行各业都爆发了类似的崩溃事件。受影响最严重的是航空、交通领域,全球多家航空被迫暂停航班,或暂停电脑预约和登记服务,旅客大量滞留,全球范围内5078次航班取消,占计划航班的4.6%。
图:受事件影响航空公司手写登机牌
随后,蓝屏问题被确认与网络安全公司CrowdStrike的软件更新有关,其导致美国、新西兰、澳大利亚、日本、印度等地的Windows均出现了蓝屏现象。CrowdStrike目前正在全球范围内撤销该更新。受此事件影响,网络安全公司CrowdStrike美股盘前大跌超18%,微软跌超2%。
二、快速恢复指南
Crowdstrike解释称,这次大规模的Windows 10蓝屏死机故障是由其新的传感器更新造成的。公司首席执行官George稍后发布澄清,这不是一起安全事件或网络攻击,相关问题已被识别、隔离,并已部署修复方案。
图:Crowdstrike首席执行官George澄清
图:CrowdStrike发布声明称:“安全终端中的Falcon Sensor猎鹰传感器导致Windows系统冲突从而引起系统蓝屏状态。”
图:CrowdStrike官方快速应急恢复方案
具体操作步骤:
1. 将Windows 启动到安全模式或Windows 恢复环境;
2. 导航到C:\Windows\System32\drivers\CrowdStrike 目录;
3. 找到匹配“C-00000291*.sys”的文件,并将其删除;
4. 正常启动主机。
三、事件带来的思考
(1)事件影响范围
受本次事件影响,全球范围内都出现了故障,这反映出Windows和CrowdStrike软件在许多业务领域的大型跨国公司中的广泛使用。事件发生时,CrowdStrike表示其拥有24000多家客户,包括近60%的财富500强企业和一半以上的财富1000强企业。受影响的个人电脑数量难以确定。但是,在努力实现IT自给自足的中国,在航空、政府、金融和银行等关键服务方面受到的影响很小,此次事件再次证明了选择使用自主可控安全产品的重要性。
目前已统计受事件影响的范围(部分):
1、航空
全球范围内5078次航班取消,占计划航班的4.6%。印度尼西亚Ngurah Rai国际机场,由于航空公司的值机系统中断,亚洲航空公司乘客排起长队。北美联合航空、达美航空和美国航空发布了地面停飞令,约有1500个航班取消。加拿大蒙特利尔特鲁多国际机场和多伦多皮尔逊国际机场受到影响,波特航空取消了所有航班。
2、金融
金融受影响的银行包括加拿大的加拿大皇家银行和道明银行、南非的Capitec Bank和其他银行、以及几家以色列银行和菲律宾的银行,如RCBC、Metrobank、LandBank、BDO、UnionBank、BPI和PNB。据报道,菲律宾的Maya和GCash等电子钱包也出现问题。土耳其DenizBank的网站和移动银行应用程序无法访问。Visa受到影响。7月19日一整天,包括新加坡交易所(SGX)和星展银行在内的多家新加坡公司报告了各种程度的服务困难。
3、交通
美国-加拿大边境出现交通中断,包括安大略省温莎市的大使桥和底特律-温莎隧道出现长时间延误。华盛顿地铁交通管理局在美国早上遭遇轻微服务延误;其网站实时跟踪直到7月19日上午9:30左右才恢复可用。波士顿的MBTA失去了车辆跟踪和乘客到达通知。马来西亚铁路运营商KTMB证实,其KITS售票系统出现技术问题。爱尔兰交通部门表示,由于中断,其应用程序无法使用。爱尔兰道路安全管理局表示,其国家汽车测试(NCT)中心遇到"严重中断"。在新加坡,由建屋发展局(HDB)管理的185多个停车场的出入口受到影响。
4、医疗
北美各地的许多医院暂停了非紧急手术和就诊。虽然医院仍然开放,但对病历的访问有限,甚至无法访问。美国纪念斯隆-凯特琳癌症中心推迟了所有需要麻醉的手术,马萨诸塞总医院布莱厄姆医院系统取消了所有非急救手术和医疗就诊。加拿大大学健康网络遇到技术问题,表示医院的临床活动将继续,但警告预约可能会延迟。英国国家医疗服务体系(NHS)表示,这些问题"正在导致英格兰大多数全科医生诊所中断",其一些依赖名为EMIS Web的软件产品的服务,如全科医生诊所,无法查看和管理病历、开具和管理处方,或者预约。
5、媒体和通信
许多美国电视台无法播出。受影响的电视台之一KSHB-TV不得不借助Scripps News播出国家新闻。ESPN无法在中断当天上午在美国播出《SportsCenter》的早间版,而是在ESPN2上与ESPN Radio的《Unsportsmanlike》同步播出。印度TCS、Infosys、Oracle、诺基亚等大型IT公司也遭遇中断,导致员工提出数千个问题,设备陷入启动循环无法恢复。印度计算机应急响应小组CERT-In对此事件的严重程度评级为"关键"。
(2)事件带来的思考
1、谨慎选择产品升级策略或采取“白环境”技术
此次事件的发生证明了即使是非常成熟的技术平台也可能产生意外故障。保障业务稳定性和持续性不单纯是技术问题,特别是在特定的行业,如电力、轨道交通、医疗等对业务稳定性和持续性有严格要求的行业,对于系统/应用升级更应该有严谨的要求,可以用灰度更新/升级策略来减少因产品升级有bug的版本造成的问题,或者采取“白环境”的技术理念,否则类似此类故障导致的业务连续性问题甚至比恶意网络攻击还要大。
图:威努特“白环境”技术理念
2、建立完善的数据备份与恢复机制
虽然CrowdStrike 扫描器引起的蓝屏错误是由于驱动程序冲突导致的意外系统崩溃,并不会导致数据丢失,但遥想曾经的CIH病毒导致的蓝屏错误,会从硬盘的0磁道开始逐磁道格式化硬盘上的数据,最终导致系统崩溃。因此,建立完善的数据备份与恢复机制,提升整体数据安全综合保障能力是一种防患于未然的解决方案。
图:威努特数据备份与恢复系统
3、紧守安全基线,平衡自主与安全
CrowdStrike的强制更新机制虽然出于安全考虑,但却剥夺了用户的选择权。在集中控制与IT管理自主权之间如何平衡需要更加明确。应该充分考虑根据行业的基础特性要求与符合企业实际情况的安全基线要求的前提下,来设计系统及应用的更新机制。在某些特定的行业,不加思索的更新并不可取,这样的行业,稳定才是硬道理,更应该首先通过技术的手段进行系统的相关锁定,在充分评估风险并技术验证后才能展开相关的更新工作。
图:威努特“工控主机卫士”系统关键保护
4、选择自主可控服务商及产品
此次事件发生受影响的大多数为国外行业用户,在努力实现IT基础设施自给自足的中国,在航空、政府、交通、金融等关键服务方面受到的影响很小。一个常规的更新操作造成的影响及损失如此之大,由此假想一下:我们的关基领域如果充斥大量国外的产品,就等于受制于人,防不胜防。此外,在突发事件时,系统服务商及安全产品厂商需要在最短时间内给出客户相应的解决方案,积极与客户沟通,快速响应解决问题,这充分说明了选择自主可控服务商及产品的重要性。
图:威努特全栈国产化自主可控产品
四、结语
随着“云大物智移”等新型IT技术的发展和广泛应用,网络早已经由原先的Network进化为Cyberspace,现如今我们的生产生活已经和网络息息相关,网络已然成为数字经济时代的关键基础设施,其稳定性关乎国计民生的方方面面,一旦发生重大网络安全事件,从国家安全、国计民生到公共利益都会受到极大影响。
CrowdStrike事件的发生证明了在追求网络安全的道路上,网络安全反而有可能产生一些意想不到的不安全因素。因此,选择合适的安全服务、产品不在于构建一个牢不可破的堡垒,而在于打造一个基于行业系统本身需求,选择合适、可控、可持续的安全生态系统。
2024年是习近平总书记提出网络强国战略目标10周年,同时也是威努特成立十周年。十年来,威努特坚持以技术创新和高质量服务为核心驱动力,始终扎根行业,目前已经成为国内涵盖安全、网络、计算的一站式数智化解决方案和专业化服务提供商,“安全网络,数智未来”,在数字经济新时代下,威努特致力于支撑网络强国建设,切实提高我国关键信息基础设施建设水平和风险防范能力,保障国家安全和数字经济稳定运行。
渠道合作咨询 田先生 15611262709
稿件合作 微信:shushu12121