云安全三大隐患
“失望、准备迁移、赔钱”,这是用户在云服务中断后的普遍反应。梳理近 1 年以来发生的云安全事故,我们发现:
去年 11 月,今年 3 月微软 Azure 出现过云故障。
苹果在3月和7月都出现过问题,3 月的瘫痪更是超过 11 个小时,App Store、Apple Music、Apple Radio、Apple TV 等,甚至是 OS X 软件更新都受到了影响。
黑色 5 月里,网易、支付宝、携程都连续出现问题。其中支付宝出现的问题和今年 7 月纽交所技术故障导致的交易暂停都是设计金融领域比较严重的事故。支付宝解释自己故障的原因是运营商的光纤被挖断导致。
6 月阿里云香港机房瘫痪 12 个小时。
今年 3 月腾讯云也曾出现用户无法访问,回应是上海机房出现问题。
7月就在云服务厂商青云第一届用户大会进行的同时,青云的云服务出现了中断。
每一个事故都有自己独特的原因,那么如何系统地看待云事故,笔者请教了百度云安全部技术主席王宇。
王宇认为,涉及之前出现的云事故大体可以分为三类:
首先是硬件故障。云环境下硬件故障是十分常见的情况,在设计支撑云服务的底层基础设施之初就应该充分考虑。 如何避免单点,如何实现热备及自动故障恢复甚至「带伤运转」是每个云服务商在事前就必须考虑的问题,传统意义上简单的灾备并不能满足云服务的高可靠要求。
除了青云的此次事故,5 月网易出现的部分服务无法访问,业界也有观点认为是其网络设备板卡出现问题,这都属于硬件方面的准备和考虑不足所致。」
其次人为误操作。对于云环境下的业务来说,单次误操作的影响力无疑被很大程度的放大了。虽然每个云服务商都应该有 SOP(Standard Operation Procedure,即标准作业程序,就是将某一事件的标准操作步骤和要求以统一的格式描述出来,用来指导和规范日常的工作)和 BCP(业务持续性计划、Business Continuity Plan),但在实际的制定和执行过程中经常会出现考虑不周或者执行不到位的情况。 云服务提供商需要通过对外不断的学习评估业内之前出现过的案例,以及其处理方式的妥善与否来改进完善自己的 SOP 和 BCP,对内结合自己的业务场景不断进行演练改进,提升其执行力度和熟练程度。
简单来看, 出现问题后的恢复时间长短其实成为衡量一个厂商服务能力的一个重要指标,之前国外云厂商能在完全中断服务的情况下,2 个小时内恢复云,属于相对成功的案例。」
(责任编辑:安博涛)