cloudwatchでec2 インスタンスのCPU、メモリ、ディスク、ネットワークなどの監視をする

2019/08/09 - moriya - ~

cloudwatch agent を使うと、CPU、メモリ、ディスク、ネットワークなどの監視ができるようになる。その方法について。

centos 7 の場合。root で (または、sudo を使って)実行。私は、めんどうなので、よろしくないかもしれないが、いつも sudo -s で root になっている。

インストール

yum install https://s3.amazonaws.com/amazoncloudwatch-agent/centos/amd64/latest/amazon-cloudwatch-agent.rpm

を実行。centos でない場合は、 aws ドキュメントに記載のリンクを参照。

設定

次のコマンドを実行する。

/opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-config-wizard

設定例を示す。StatsD は no でもよい。(別途記載) 詳細なシステム監視をしたければ、collectd を yes にして、collectd をインストールしてもよいだろう。


=============================================================
= Welcome to the AWS CloudWatch Agent Configuration Manager =
=============================================================
On which OS are you planning to use the agent?
1. linux
2. windows
default choice: [1]:

Trying to fetch the default region based on ec2 metadata...
Are you using EC2 or On-Premises hosts?
1. EC2
2. On-Premises
default choice: [1]:

Which user are you planning to run the agent?
1. root
2. cwagent
3. others
default choice: [1]:

Do you want to turn on StatsD daemon?
1. yes
2. no
default choice: [1]:

Which port do you want StatsD daemon to listen to?
default choice: [8125]

What is the collect interval for StatsD daemon?
1. 10s
2. 30s
3. 60s
default choice: [1]:

What is the aggregation interval for metrics collected by StatsD daemon?
1. Do not aggregate
2. 10s
3. 30s
4. 60s
default choice: [4]:

Do you want to monitor metrics from CollectD?
1. yes
2. no
default choice: [1]:
2
Do you want to monitor any host metrics? e.g. CPU, memory, etc.
1. yes
2. no
default choice: [1]:

Do you want to monitor cpu metrics per core? Additional CloudWatch charges may apply.
1. yes
2. no
default choice: [1]:

Do you want to add ec2 dimensions (ImageId, InstanceId, InstanceType, AutoScalingGroupName) into all of your metrics if the info is available?
1. yes
2. no
default choice: [1]:

Would you like to collect your metrics at high resolution (sub-minute resolution)? This enables sub-minute resolution for all metrics, but you can customize for specific metrics in the output json file.
1. 1s
2. 10s
3. 30s
4. 60s
default choice: [4]:

Which default metrics config do you want?
1. Basic
2. Standard
3. Advanced
4. None
default choice: [1]:
3
Current config as follows:
{
	"agent": {
		"metrics_collection_interval": 60,
		"run_as_user": "root"
	},
	"metrics": {
		"append_dimensions": {
			"AutoScalingGroupName": "${aws:AutoScalingGroupName}",
			"ImageId": "${aws:ImageId}",
			"InstanceId": "${aws:InstanceId}",
			"InstanceType": "${aws:InstanceType}"
		},
		"metrics_collected": {
			"cpu": {
				"measurement": [
					"cpu_usage_idle",
					"cpu_usage_iowait",
					"cpu_usage_user",
					"cpu_usage_system"
				],
				"metrics_collection_interval": 60,
				"resources": [
					"*"
				],
				"totalcpu": false
			},
			"disk": {
				"measurement": [
					"used_percent",
					"inodes_free"
				],
				"metrics_collection_interval": 60,
				"resources": [
					"*"
				]
			},
			"diskio": {
				"measurement": [
					"io_time",
					"write_bytes",
					"read_bytes",
					"writes",
					"reads"
				],
				"metrics_collection_interval": 60,
				"resources": [
					"*"
				]
			},
			"mem": {
				"measurement": [
					"mem_used_percent"
				],
				"metrics_collection_interval": 60
			},
			"netstat": {
				"measurement": [
					"tcp_established",
					"tcp_time_wait"
				],
				"metrics_collection_interval": 60
			},
			"statsd": {
				"metrics_aggregation_interval": 60,
				"metrics_collection_interval": 10,
				"service_address": ":8125"
			},
			"swap": {
				"measurement": [
					"swap_used_percent"
				],
				"metrics_collection_interval": 60
			}
		}
	}
}
Are you satisfied with the above config? Note: it can be manually customized after the wizard completes to add additional items.
1. yes
2. no
default choice: [1]:

Do you have any existing CloudWatch Log Agent (http://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AgentReference.html) configuration file to import for migration?
1. yes
2. no
default choice: [2]:
2
Do you want to monitor any log files?
1. yes
2. no
default choice: [1]:
2
Saved config file to /opt/aws/amazon-cloudwatch-agent/bin/config.json successfully.
Current config as follows:
{
	"agent": {
		"metrics_collection_interval": 60,
		"run_as_user": "root"
	},
	"metrics": {
		"append_dimensions": {
			"AutoScalingGroupName": "${aws:AutoScalingGroupName}",
			"ImageId": "${aws:ImageId}",
			"InstanceId": "${aws:InstanceId}",
			"InstanceType": "${aws:InstanceType}"
		},
		"metrics_collected": {
			"cpu": {
				"measurement": [
					"cpu_usage_idle",
					"cpu_usage_iowait",
					"cpu_usage_user",
					"cpu_usage_system"
				],
				"metrics_collection_interval": 60,
				"resources": [
					"*"
				],
				"totalcpu": false
			},
			"disk": {
				"measurement": [
					"used_percent",
					"inodes_free"
				],
				"metrics_collection_interval": 60,
				"resources": [
					"*"
				]
			},
			"diskio": {
				"measurement": [
					"io_time",
					"write_bytes",
					"read_bytes",
					"writes",
					"reads"
				],
				"metrics_collection_interval": 60,
				"resources": [
					"*"
				]
			},
			"mem": {
				"measurement": [
					"mem_used_percent"
				],
				"metrics_collection_interval": 60
			},
			"netstat": {
				"measurement": [
					"tcp_established",
					"tcp_time_wait"
				],
				"metrics_collection_interval": 60
			},
			"statsd": {
				"metrics_aggregation_interval": 60,
				"metrics_collection_interval": 10,
				"service_address": ":8125"
			},
			"swap": {
				"measurement": [
					"swap_used_percent"
				],
				"metrics_collection_interval": 60
			}
		}
	}
}
Please check the above content of the config.
The config file is also located at /opt/aws/amazon-cloudwatch-agent/bin/config.json.
Edit it manually if needed.
Do you want to store the config in the SSM parameter store?
1. yes
2. no
default choice: [1]:
2
Program exits now.

IAMロールの作成

AWSドキュメントを参考に、ec2 に CloudWatchAgentServerPolicy を有効にするロールを作る。

ec2 に作った IAM ロールを割り当てる。(AWS console > ec2 > インスタンスを選んで、アクション > インスタンスの設定 > IAMロールの割り当て)

不親切だが、試行錯誤してほしい。原理を覚えておけばコンソールの画面が変わっても、大丈夫なはずだ・・・(単にスクリーンショットを取るのがめんどうなだけだが)

実行

以下を実行する。

/opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a fetch-config -m ec2 -c file:/opt/aws/amazon-cloudwatch-agent/bin/config.json -s

centos 7 の場合は、systemctl できるようにセットアップされるので、

systemctl start amazon-cloudwatch-agent

で agent を起動する。

起動に失敗した場合は、/opt/aws/amazon-cloudwatch-agent/logs/amazon-cloudwatch-agent.log などを見て何が悪いか調べる。

StatsD

StatsD を使うよう設定した場合、好きなメトリックスを作って送ることができる。

例えば、次のようにして試すことができる。(yum install nc しておく。)

echo "num_httpd:`pgrep httpd | wc -l`|c" | nc -u localhost 8125

httpd の個数を num_httpd というメトリックス名で送信する。

反映までに少し時間がかかるかもしれないが、メトリックス名 num_httpd を検索すると出てくる。cron などで定期的に送信すればよさそうだ。

従来 zabbix を使って監視していたシステムがあるのだが、使いこなせないというのと、cloudwatch で一元的に見れるほうが良いだろうと思い(逆もあると思うが)、cloudwatch agent で収集していない値を StatsD サーバの機能を使って cloudwatch のメトリクスできるのはとても使い勝手が良いと思う。

例えば、今監視している項目として、WEB ページが生きているかどうか、であるが、個別に python スクリプトを使って送信していたが、curl の結果を nc で cloudwatch agent の StatsD ポートに送信すれば、簡単に監視することができそうだ。

開発も運用が綺麗に分かれている感じでもなく、ソフト開発と運用、両方のめんどうを見ないといけない、そういった方々に参考になれば嬉しい。

AWS-GCP
cloudwatch