[LT報告] JAWS-UG 名古屋オブザーバビリティ for AWS

7月 14, 20237月 15, 2023AWS,Techイベント

概要

こんにちわ。今週7/11 (火) は、JAWS-UG 名古屋にLT枠で参加しました。7月のJAWS-UG 名古屋は、『オブザーバビリティ for AWS』をテーマに開催されました。
会場は、コラボベース NAGOYA。とてもオシャレな会場で、この回は多くのエンジニアの方々が参加。私も「CloudWatchカスタムメトリクスをトリガにスケールするEC2 ASG」のタイトルにて、実際に業務で経験したオブザーバビリティの実例をお話しました。

JAWS-UG 名古屋オブザーバビリティ for AWS｜クラウドの活用ならcloudpack

JAWS-UG 名古屋オブザーバビリティ for AWS

https://cloudpack.jp/event/jawsug-nagoya-20230711.html

とあるEC2 Auto Scaling構成の httpサーバー(Apache)がある。定期的に、一部インスタンスでElastic Load Balancing のヘルスチェックのunhealthy が起こるようになった。
特定のインスタンスではなく、事象発生時に複数台で起き始める。
メトリクス,ログから原因不明　→　なぜか時間の経過でunhealthyは解消される。

今回の実例は、CloudWatchメトリクスだけでは「なんかおこった！」しか見えてこない。unhealthy のメトリクスをトリガにEC2 にログインしたり、Linuxコマンドを叩く必要があった。調べるインスタンスは何台もあり、調査には時間を必要とする。
- 標準のメトリクスだけでは、このシステムで本当に起きていること(root cause)が、見えない！
調査の結果、原因と対処は分かった。
- だけど、unhealthy が起きてから運用が手作業でスケールアウトなんて無理だ。人力の監視と対処を何とかしたい！
httpのプロセス数をにらめっこしていたら、これ使うと事前に対処出来そう。
- だけど、CloudWatch にプロセス数を見るメトリクスはない？　プロセス数を可視化したい！
CloudWatch Agent の設定によってプロセス数のカスタムメトリクスが導入できるぞ。
- 待てよ？　プロセス数をしきい値にインスタンスを1台ずつ増やしたいのに、AutoScalingGroup に所属するインスタンスの台数分、スケールアウトが発動しちゃうかも！？　AutoScalingGroupでメトリクスをまとめることはできないのか？

どうやったらプロセス数をAutoScalingGroup単位で可視化できるか、そしてAutoScaling ポリシーにスケールアウトを組み込めるかを検証。その結果を解説しました。
詳細は、以下のスライドを参照。

Posted by takaaki