原因はストレージの自己修復機能のバグ、Azure 東日本リージョンで障害が発生
日本時間、3/8 21:40〜23:38の間にAzureの東日本リージョンで発生していた障害の原因が発表されました。
マイクロソフトによると、ストレージの自己修復機能のバグにより引き起こされたとのことです。
影響範囲
- App Service
- Web Apps
- Site Recovery
- Virtual Machines
- Redis Cache
- Data Movement
- StorSimple
- Logic Apps
- Media Services
- Key Vault
- HDInsight
- SQL Database
- Automation
- Stream Analytics
- Backup
- IoT Hub
- Cloud Services
原因の内容
東日本リージョンのストレージスケールユニットには、Stream Mangerで異常が発生し、リクエストの処理に失敗した際に備えて、自己修復機能が実装されていますが、3/8の障害時にはバグが原因で自動修復機能が実行されなかったようです。
そのため、ストレージへのリクエスト処理が実行できず、サービス断を引き起こしたようですね。
ストレージへのアクセスができなくなったので、影響範囲も広範囲となっていました。
今後の対策
マイクロソフトは再発防止策として、下記の内容を掲げています。
- 自己修復機能のバグフィックスを展開する
- セカンダリの自己修復機能の実装
まとめ
しょぼんブログでもこの障害の影響を少しですが受けています。
ブログのバックアップ先、テスト用環境を東日本リージョンに展開しているのですが、そのインスタンスが使えない事態に陥っていました。
ただ、本番サービスにはなんら影響の無いところでしたので、影響度はそこまで大きくありませんでした。
サービスエリアで休憩しているときに、アラートメールが飛んできたので、最悪寒空の下対応しないといけないかも・・・何て思いましたが、そのような事態には陥りませんでした。
高い水準のSLAを保証しているサービスであっても、絶対に落ちないサービスなどこの世に存在しないので、システムやサイトをクラウドサービス上で運営する場合は、障害発生時のシナリオをきちんと想定して、設計することが大切ですね。
Source: Microsoft Azure