万が一に備え、AWS障害の確認方法を読む

9月 9, 2019AWS,全般

概要

  • 2019年8月に東京リージョンにて発生したAWS障害をモチーフに、AWS障害を状況を確認する方法を説明します。

過去の障害振り返り

  • 障害のレポートは多くのNewsやブログで記載がありますので、ここでは簡単に障害内容を振り返ります。
  • 2019/8/23 13時頃より、東京リージョンの単一AZの一部において、冷却システムの故障が起因したEC2、EBS、RDSが使用不可となり、その他にも一部のプロダクトで障害の影響がありました。
  • 障害復旧まで、EC2は約6時間、RDSは約9時間半かかったとされています。
  • 詳しい障害のサービス影響については、下記piyokangoさんの記事を参照ください。

 

  • AWS公式の障害報告に関しては、下記を参照ください。

 

AWS障害の状況を確認する

Dashboard

  • 次にAWS障害の状況を確認する方法を紹介します。
  • AWSコンソールに接続すると、右上のアイコンより、アラートの有無が確認できます(下図参照)。
  • Dashboardが開きます。ここでOpen issue が確認できます。8/23の障害発生中は、以下のように2件のissueが上がっており、EC2、RDSの障害が発生中であることを報告してくれました。また、該当のEventをクリックすると、右側のペインに復旧状況の詳細が記載されています。

 

  • 以下、Issueに記載されていた障害の説明。
9:18 PM PDT We are investigating connectivity issues affecting some instances in a single Availability Zone in the AP-NORTHEAST-1 Region.
9:47 PM PDT We can confirm that some instances are impaired and some EBS volumes are experiencing degraded performance within a single Availability Zone in the AP-NORTHEAST-1 Region. Some EC2 APIs are also experiencing increased error rates and latencies. We are working to resolve the issue.

 

AWSコンソール

  • またAWS障害中は、AWSコンソールが接続できない状態にも陥りました。以下は、RDSのコンソールがエラーとなり、接続できない状態を表します。

 

Service Health Dashboard

  • AWSコンソールのDashboard以外に、 パブリックなService Health Dashboardにアクセスして、各リージョンの状態を知ることができます。
  • Service Health DashboardはAWSコンソールにアクセスしなくとも利用することができますので、エンジニア以外の方がリージョンの状態をチェックする際にも利用できます。

 

  • Service Health Dashboardのステータスは、緑・青・黄・赤のアイコンでレポートされます。
  • 通常は緑アイコンの「Service is operating normally」となります。障害がある場合は、青の「Informational message」、黄の「Service degradation」、赤の「Service disruption」のいずれかで深刻度を表します。
  • 以下は、2020/11/26 にus-east-1 Regionで起きた障害時のService Health Dashboardです。黄や赤のアイコンで分かるように深刻な障害であったことが伺えます。

 

 

AWS障害に備える

  • いつ起きるか分からないAWS障害に備えるには、システムの可用性を意識したシステム設計、構築が重要です。
  • 以下の記事に可用性に関してまとめています。参考にしてください。

AWS,全般

Posted by takaaki