DatadogでOSのプロセス監視を設定する方法

AWS,Datadog,運用監視

概要

はじめに

  • 今回は、DatadogでOSのプロセス監視を設定する方法をご紹介します。
  • DatadogはOSにインストールしたAgent を利用して、OSのプロセス監視を提供します。プロセス監視の方法は、Linuxのプロセス監視とWindows Serverのサービス監視で手順が異なります。本記事では、Linux、Windows Serverの2種類のOS に分けて手順を説明しています。
  • Datadog の概要は、下記のログミーTechで公開されている服部さんの記事を参照ください。
 

Datadogで実現するLinuxプロセス監視

  • 前半はLinux に関してです。Datadogのプロセス監視を利用して、Linux上のプロセスの死活監視が可能です。Datadogのドキュメントは、こちらを参照。
  • Linuxの場合は “process.d" のconf を使用します。

監視対象のLinuxプロセスを特定する

  • 先ず、監視するLinuxサーバーにおいて、監視対象のプロセス名を確認します。psコマンドの結果に出力されたプロセスの名前を控え、後述のconf.yaml に記載します。
  • 下記の例では、sshd、amazon-ssm-agent、awslogs-agentのプロセス名を確認しています。

$ ps -ef | grep sshd
root      3184     1  0 15:30 ?        00:00:00 /usr/sbin/sshd -D
$ ps -ef | grep amazon-ssm-agent
root      3139     1  0  6月17 ?      01:14:31 /usr/bin/amazon-ssm-agent
$ ps -ef | grep awslogs
root      5680     1  0 10月21 ?      00:00:00 /bin/sh /var/awslogs/bin/awslogs-agent-launcher.sh ←
root      5684  5680  0 10月21 ?      00:52:52 /var/awslogs/bin/python2 /var/awslogs/bin/aws logs push --config-file /var/awslogs/etc/awslogs.conf --additional-configs-dir /var/awslogs/etc/config
   

conf.yamlを作成する

  • conf.yamlを作成します。以下に、サンプルを記載します。
  • 下記の”name”に指定したタグは、Datadogでmonitorを作成する時にprocessに指定する文字列と一致する必要があります。
  • 下記の"search_string"は監視対象のプロセスを検索するための文字列のリストです。
  • デフォルトはプロセスの検索は完全一致となりますが、"exact_match"に"False"を指定することで"search_string"の文字列を含むすべてのプロセスを認識します。

init_config:
instances:
  - name: sshd
    search_string: ['ssh', 'sshd']
    exact_match: False
  - name: amazon-ssm-agent
    search_string: ['amazon-ssm-agent']
    exact_match: False
  - name: amazon-cloudwatch-agent
    search_string: ['awslogs-agent-launcher.sh']
    exact_match: False
 

conf.yamlを配置する

  • conf.yaml を/etc/datadog-agent/conf.d/process.d配下に配置します。
  • datadog-agent.serviceを再起動します。

$ cd /etc/datadog-agent/conf.d/process.d
$ sudo vi conf.yaml
$ sudo systemctl restart datadog-agent.service
 
  • 下記コマンドを実行し、正しくプロセス監視が行われているかをチェックします。

$ sudo datadog-agent status
** 省略 **
  Running Checks
  ==============
    process (1.10.0)
    ----------------
      Instance ID: process:sshd:a8eabece2f3b8fe0 [OK]
      Configuration Source: file:/etc/datadog-agent/conf.d/process.d/conf.yaml
      Total Runs: 12,955
      Metric Samples: Last Run: 17, Total: 220,233
      Events: Last Run: 0, Total: 0
      Service Checks: Last Run: 1, Total: 12,955
      Average Execution Time : 5ms
      Instance ID: process:amazon-cloudwatch-agent:329829e749036fcc [OK]
      Configuration Source: file:/etc/datadog-agent/conf.d/process.d/conf.yaml
      Total Runs: 12,955
      Metric Samples: Last Run: 17, Total: 220,215
      Events: Last Run: 0, Total: 0
      Service Checks: Last Run: 1, Total: 12,955
      Average Execution Time : 1ms
      Instance ID: process:amazon-ssm-agent:26932b4fb9970bc5 [OK]
      Configuration Source: file:/etc/datadog-agent/conf.d/process.d/conf.yaml
      Total Runs: 12,955
      Metric Samples: Last Run: 17, Total: 220,233
      Events: Last Run: 0, Total: 0
      Service Checks: Last Run: 1, Total: 12,955
      Average Execution Time : 2ms
 

Datadogでmonitor を作成する

  • monitor typeに「Process Check」を選択し、monitorを作成します。
  • 「process」の候補から先ほどconf.yaml で設定したプロセスを選択します。
     

Datadogで実現するWindowsサービス監視

  • 後半はWindows Server に関してです。Datadogの Custom Check監視を利用して、Windows Server上のサービスの死活監視が可能です。Datadogのドキュメントは、こちらを参照。
  • Windows Serverの場合は “windows_service.d" のconf を使用します。失敗談として、Linuxと同じ"process.d“にWindowsサービスを指定すると、下記のエラーとなり動作しませんでした…。
    • 「Warning: No matching process 'CloudWatchAgent' was found」
 

監視対象のWindows Serverのサービス特定する

  • 先ず、監視するWindows Serverにおいて、監視対象のサービス名を確認します。下記の例では、Amazon CloudWatch Agentのサービス名を確認しています。
  • 「services.msc」を起動し、対象サービスを選び、プロパティを開きます。
  • プロパティのサービス名に表示されている名前を後述のconf.yaml に指定します。
 

conf.yamlを作成する

  • conf.yamlを作成します。以下に、サンプルを記載します。
  • 下記の”services”に先ほどの手順で確認したサービス名を指定します。

init_config:
instances:
  - services:
    - eventlog
    - AmazonCloudWatchAgent
    - AmazonSSMAgent
 

conf.yamlを配置する

  • conf.yaml をC:\ProgramData\Datadog\conf.d\windows_service.d配下に配置します。
  • datadog-agentを再起動します。PowerShell を管理者として起動し、下記コマンドを実行します。

PS C:\Users\Administrator> cd "C:\Program Files\Datadog\Datadog Agent\embedded"
PS C:\Program Files\Datadog\Datadog Agent\embedded> ./agent.exe restart-service
PS C:\Program Files\Datadog\Datadog Agent\embedded> ./agent.exe status
 
  • agent.exe statusコマンドの結果、正しくプロセス監視が行われているかをチェックします。

===============
Agent (v6.14.1)
===============
* 省略 *
  Running Checks
  ==============
    windows_service (2.1.0)
    -----------------------
      Instance ID: windows_service:89b0f21a4c4f699f [[32mOK[0m]
      Configuration Source: file:C:\ProgramData\Datadog\conf.d\windows_service.d\conf.yaml
      Total Runs: 1
      Metric Samples: Last Run: 0, Total: 0
      Events: Last Run: 0, Total: 0
      Service Checks: Last Run: 5, Total: 5
      Average Execution Time : 197ms
 

Datadogでmonitor を作成する

  • monitor typeに「Custom Check」を選択し、monitorを作成します。
  • 「check」から「windows_service.state」を選択します。「monitor scope」から先ほどconf.yaml で設定したサービス名を選択します。
 
  • Linux, Windows Server で方法が異なるため、初回は戸惑いますが、手順が確立できれば、さくっと監視が追加できます。OSのプロセスを監視して、障害を早くキャッチしましょう。

AWS,Datadog,運用監視

Posted by takaaki