cloudwatchでec2 インスタンスのCPU、メモリ、ディスク、ネットワークなどの監視をする
2019/08/09 - moriya - ~4 Minutes
cloudwatch agent を使うと、CPU、メモリ、ディスク、ネットワークなどの監視ができるようになる。その方法について。
centos 7 の場合。root で (または、sudo を使って)実行。私は、めんどうなので、よろしくないかもしれないが、いつも sudo -s で root になっている。
インストール
yum install https://s3.amazonaws.com/amazoncloudwatch-agent/centos/amd64/latest/amazon-cloudwatch-agent.rpm
を実行。centos でない場合は、 aws ドキュメントに記載のリンク を参照。
設定
次のコマンドを実行する。
/opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-config-wizard
設定例を示す。StatsD は no でもよい。(別途記載) 詳細なシステム監視をしたければ、collectd を yes にして、collectd をインストールしてもよいだろう。
=============================================================
= Welcome to the AWS CloudWatch Agent Configuration Manager =
=============================================================
On which OS are you planning to use the agent?
1. linux
2. windows
default choice: [1]:
Trying to fetch the default region based on ec2 metadata...
Are you using EC2 or On-Premises hosts?
1. EC2
2. On-Premises
default choice: [1]:
Which user are you planning to run the agent?
1. root
2. cwagent
3. others
default choice: [1]:
Do you want to turn on StatsD daemon?
1. yes
2. no
default choice: [1]:
Which port do you want StatsD daemon to listen to?
default choice: [8125]
What is the collect interval for StatsD daemon?
1. 10s
2. 30s
3. 60s
default choice: [1]:
What is the aggregation interval for metrics collected by StatsD daemon?
1. Do not aggregate
2. 10s
3. 30s
4. 60s
default choice: [4]:
Do you want to monitor metrics from CollectD?
1. yes
2. no
default choice: [1]:
2
Do you want to monitor any host metrics? e.g. CPU, memory, etc.
1. yes
2. no
default choice: [1]:
Do you want to monitor cpu metrics per core? Additional CloudWatch charges may apply.
1. yes
2. no
default choice: [1]:
Do you want to add ec2 dimensions (ImageId, InstanceId, InstanceType, AutoScalingGroupName) into all of your metrics if the info is available?
1. yes
2. no
default choice: [1]:
Would you like to collect your metrics at high resolution (sub-minute resolution)? This enables sub-minute resolution for all metrics, but you can customize for specific metrics in the output json file.
1. 1s
2. 10s
3. 30s
4. 60s
default choice: [4]:
Which default metrics config do you want?
1. Basic
2. Standard
3. Advanced
4. None
default choice: [1]:
3
Current config as follows:
{
"agent": {
"metrics_collection_interval": 60,
"run_as_user": "root"
},
"metrics": {
"append_dimensions": {
"AutoScalingGroupName": "${aws:AutoScalingGroupName}",
"ImageId": "${aws:ImageId}",
"InstanceId": "${aws:InstanceId}",
"InstanceType": "${aws:InstanceType}"
},
"metrics_collected": {
"cpu": {
"measurement": [
"cpu_usage_idle",
"cpu_usage_iowait",
"cpu_usage_user",
"cpu_usage_system"
],
"metrics_collection_interval": 60,
"resources": [
"*"
],
"totalcpu": false
},
"disk": {
"measurement": [
"used_percent",
"inodes_free"
],
"metrics_collection_interval": 60,
"resources": [
"*"
]
},
"diskio": {
"measurement": [
"io_time",
"write_bytes",
"read_bytes",
"writes",
"reads"
],
"metrics_collection_interval": 60,
"resources": [
"*"
]
},
"mem": {
"measurement": [
"mem_used_percent"
],
"metrics_collection_interval": 60
},
"netstat": {
"measurement": [
"tcp_established",
"tcp_time_wait"
],
"metrics_collection_interval": 60
},
"statsd": {
"metrics_aggregation_interval": 60,
"metrics_collection_interval": 10,
"service_address": ":8125"
},
"swap": {
"measurement": [
"swap_used_percent"
],
"metrics_collection_interval": 60
}
}
}
}
Are you satisfied with the above config? Note: it can be manually customized after the wizard completes to add additional items.
1. yes
2. no
default choice: [1]:
Do you have any existing CloudWatch Log Agent (http://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AgentReference.html) configuration file to import for migration?
1. yes
2. no
default choice: [2]:
2
Do you want to monitor any log files?
1. yes
2. no
default choice: [1]:
2
Saved config file to /opt/aws/amazon-cloudwatch-agent/bin/config.json successfully.
Current config as follows:
{
"agent": {
"metrics_collection_interval": 60,
"run_as_user": "root"
},
"metrics": {
"append_dimensions": {
"AutoScalingGroupName": "${aws:AutoScalingGroupName}",
"ImageId": "${aws:ImageId}",
"InstanceId": "${aws:InstanceId}",
"InstanceType": "${aws:InstanceType}"
},
"metrics_collected": {
"cpu": {
"measurement": [
"cpu_usage_idle",
"cpu_usage_iowait",
"cpu_usage_user",
"cpu_usage_system"
],
"metrics_collection_interval": 60,
"resources": [
"*"
],
"totalcpu": false
},
"disk": {
"measurement": [
"used_percent",
"inodes_free"
],
"metrics_collection_interval": 60,
"resources": [
"*"
]
},
"diskio": {
"measurement": [
"io_time",
"write_bytes",
"read_bytes",
"writes",
"reads"
],
"metrics_collection_interval": 60,
"resources": [
"*"
]
},
"mem": {
"measurement": [
"mem_used_percent"
],
"metrics_collection_interval": 60
},
"netstat": {
"measurement": [
"tcp_established",
"tcp_time_wait"
],
"metrics_collection_interval": 60
},
"statsd": {
"metrics_aggregation_interval": 60,
"metrics_collection_interval": 10,
"service_address": ":8125"
},
"swap": {
"measurement": [
"swap_used_percent"
],
"metrics_collection_interval": 60
}
}
}
}
Please check the above content of the config.
The config file is also located at /opt/aws/amazon-cloudwatch-agent/bin/config.json.
Edit it manually if needed.
Do you want to store the config in the SSM parameter store?
1. yes
2. no
default choice: [1]:
2
Program exits now.
IAMロールの作成
AWSドキュメント を参考に、ec2 に CloudWatchAgentServerPolicy を有効にするロールを作る。
ec2 に作った IAM ロールを割り当てる。(AWS console > ec2 > インスタンスを選んで、アクション > インスタンスの設定 > IAMロールの割り当て)
不親切だが、試行錯誤してほしい。原理を覚えておけばコンソールの画面が変わっても、大丈夫なはずだ・・・(単にスクリーンショットを取るのがめんどうなだけだが)
実行
以下を実行する。
/opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a fetch-config -m ec2 -c file:/opt/aws/amazon-cloudwatch-agent/bin/config.json -s
centos 7 の場合は、systemctl できるようにセットアップされるので、
systemctl start amazon-cloudwatch-agent
で agent を起動する。
起動に失敗した場合は、/opt/aws/amazon-cloudwatch-agent/logs/amazon-cloudwatch-agent.log などを見て何が悪いか調べる。
StatsD
StatsD を使うよう設定した場合、好きなメトリックスを作って送ることができる。
例えば、次のようにして試すことができる。(yum install nc しておく。)
echo "num_httpd:`pgrep httpd | wc -l`|c" | nc -u localhost 8125
httpd の個数を num_httpd というメトリックス名で送信する。
反映までに少し時間がかかるかもしれないが、メトリックス名 num_httpd を検索すると出てくる。cron などで定期的に送信すればよさそうだ。
従来 zabbix を使って監視していたシステムがあるのだが、使いこなせないというのと、cloudwatch で一元的に見れるほうが良いだろうと思い(逆もあると思うが)、cloudwatch agent で収集していない値を StatsD サーバの機能を使って cloudwatch のメトリクスできるのはとても使い勝手が良いと思う。
例えば、今監視している項目として、WEB ページが生きているかどうか、であるが、個別に python スクリプトを使って送信していたが、curl の結果を nc で cloudwatch agent の StatsD ポートに送信すれば、簡単に監視することができそうだ。
開発も運用が綺麗に分かれている感じでもなく、ソフト開発と運用、両方のめんどうを見ないといけない、そういった方々に参考になれば嬉しい。