万が一に備え、AWS障害の確認方法を読む

2019-09-11

概要

  • 2019年8月に東京リージョンにて発生したAWS障害をモチーフに、AWS障害を状況を確認する方法を説明します。

過去の障害振り返り

  • 障害のレポートは多くのNewsやブログで記載がありますので、ここでは簡単に障害内容を振り返ります。
  • 2019/8/23 13時頃より、東京リージョンの単一AZの一部において、冷却システムの故障が起因したEC2、EBS、RDSが使用不可となり、その他にも一部のプロダクトで障害の影響がありました。
  • 障害復旧まで、EC2は約6時間、RDSは約9時間半かかったとされています。
  • 詳しい障害のサービス影響については、下記piyokangoさんの記事を参照ください。
 
  • AWS公式の障害報告に関しては、下記を参照ください。
 

AWS障害の状況を確認する

Dashboard

  • 次にAWS障害の状況を確認する方法を紹介します。
  • AWSコンソールに接続すると、右上のアイコンより、アラートの有無が確認できます(下図参照)。
  • Dashboardが開きます。ここでOpen issue が確認できます。8/23の障害発生中は、以下のように2件のissueが上がっており、EC2、RDSの障害が発生中であることを報告してくれました。また、該当のEventをクリックすると、右側のペインに復旧状況の詳細が記載されています。
 
  • 以下、Issueに記載されていた障害の説明。
9:18 PM PDT We are investigating connectivity issues affecting some instances in a single Availability Zone in the AP-NORTHEAST-1 Region.
9:47 PM PDT We can confirm that some instances are impaired and some EBS volumes are experiencing degraded performance within a single Availability Zone in the AP-NORTHEAST-1 Region. Some EC2 APIs are also experiencing increased error rates and latencies. We are working to resolve the issue.
 

AWSコンソール

  • またAWS障害中は、AWSコンソールが接続できない状態にも陥りました。以下は、RDSのコンソールがエラーとなり、接続できない状態を表します。
 

Service Health Dashboard

  • AWSコンソールのDashboard以外に、 パブリックなService Health Dashboardにアクセスして、各リージョンの状態を知ることができます。
  • Service Health DashboardはAWSコンソールにアクセスしなくとも利用することができますので、エンジニア以外の方がリージョンの状態をチェックする際にも利用できます。
 

AWS障害に備える

  • いつ起きるか分からないAWS障害に備えるには、システムの可用性を意識したシステム設計、構築が重要です。
  • 以下の記事に可用性に関してまとめています。参考にしてください。

AWS, 全般

Posted by takaaki