運用性＠AWS¶

はじめに¶

本サイトにつきまして、以下をご認識のほど宜しくお願いいたします。

https://hiroki-it.github.io/tech-notebook/

02. 監視¶

ビジネス成果の監視¶

▼ ビジネス成果の監視とは¶

ビジネス成果メトリクスを監視する。

例えば、BI ツール (例：Redash、Metabase、Google Cloud Looker など) を採用し、DB から読み込んだデータ (例：取引履歴) をメトリクスとする。

https://docs.aws.amazon.com/wellarchitected/2023-10-03/framework/oe-operate.html

▼ DevOps成果¶

以下のメトリクスを DevOps 成果の指標として、QuickSight で監視する。

Code 三兄弟のデータポイントを収集し、メトリクスとして分析している。

リポジトリ別コード変更量 (コミッター、コード変更数)
アプリケーション別の MTTR
変更失敗率 (デプロイの失敗頻度)
CI の状態 (失敗、成功、実施頻度)
CD の状態 (失敗、成功、実施頻度)
CI/CD 全体の状態 (失敗、成功、実施頻度)

https://docs.aws.amazon.com/solutions/latest/devops-monitoring-dashboard-on-aws/devops-metrics-list.html

https://docs.aws.amazon.com/solutions/latest/devops-monitoring-dashboard-on-aws/amazon-quicksight-dashboards-visuals.html

システムの監視¶

▼ システムの監視とは¶

システムに関するメトリクスを監視する。

https://docs.aws.amazon.com/wellarchitected/2023-10-03/framework/oe-operate.html

▼ ユーザー定義の名前空間¶

名前空間ユーザー定義としたメトリクスの監視ポリシーは以下の通りである。

メトリクス名	単位	説明	アラート条件例 (合致したら発火)
`<任意のプレフィクス>LogMetrics`	カウント	ログステータスの検出数をデータポイントとする。メトリクスと検出ルールはフィルターパターンで作成できる。	・統計 : 期間内合計数・期間 : `5` 分・閾値 : `>= 1`

▼ AWS ALB¶

名前空間を AWS ALB としたメトリクスの監視ポリシーは以下の通りである。

メトリクス名	単位	説明	アラート条件例 (合致したら発火)
`HTTPCode_ELB_4XX_Count`	カウント	AWS ALBが原因で返信した `400` 系ステータスをデータポイントとする。	・統計 : 期間内合計数・期間 : `24` 時間・閾値 : `>= 1`
`HTTPCode_ELB_5XX_Count`	カウント	AWS ALBが原因で返信した `500` 系ステータスをデータポイントとする。	・統計 : 期間内合計数・期間 : `5` 分・閾値 : `>= 1`
`HealthyHostCount`	カウント	ターゲットグループ内の正常なターゲットの数をデータポイントとする。
`UnHealthyHostCount`	カウント	ターゲットグループ内の異常なターゲットの数をデータポイントとする。
`HTTPCode_TARGET_4XX_Count`	カウント	ターゲットグループ内のターゲットが `400` レスポンスを返信した数をデータポイントとする。	・統計 : 期間内合計数・期間 : `24` 時間・閾値 : `>= 1`
`HTTPCode_TARGET_5XX_Count`	カウント	ターゲットグループ内のターゲットが `500` レスポンスを返信した数をデータポイントとする。	・統計 : 期間内合計数・期間 :`5` 分・閾値 : `>= 1`
`RejectedConnectionCount`	カウント	ターゲットグループ内のターゲットから接続拒否された数をデータポイントとする。
`TargetConnectionErrorCount`	カウント	ターゲットグループ内のターゲットに対する通信でエラーが発生した数をデータポイントとする。
`TargetTLSNegotiationErrorCount`	カウント	ターゲットグループ内のターゲットへのHTTPSプロトコルでエラーが発生した数をデータポイントとする。

https://docs.aws.amazon.com/elasticloadbalancing/latest/application/load-balancer-cloudwatch-metrics.html

▼ Amazon API Gateway¶

名前空間を Amazon API Gateway としたメトリクスの監視ポリシーは以下の通りである。

メトリクス名	単位	説明	アラート条件例 (合致したら発火)
`IntegrationLatency`	マイクロ秒	Amazon API Gatewayがリクエストをバックエンドにルーティングしてから、バックエンドからレスポンスを受信するまでの時間をデータポイントとする。
`Latency`	マイクロ秒	Amazon API Gatewayがクライアントからリクエストを受信してから、クライアントにこれを返信するまでの時間をデータポイントとする。
`4XXError`	カウント	`400` 系ステータスの数をデータポイントとする。	・統計 : 期間内合計数・期間 : `24` 時間・閾値 : `>= 1`
`5XXError`	カウント	`500` 系ステータスの数をデータポイントとする。アプリケーションが停止してしまうようなインシデントを検出することに適する。	・統計 : 期間内合計数・期間 : `5` 分・閾値 : `>= 1`

https://docs.aws.amazon.com/apigateway/latest/developerguide/api-gateway-metrics-and-dimensions.html#api-gateway-metrics

▼ Amazon EC2¶

名前空間を EC2 としたメトリクスの監視ポリシーは以下の通りである。

メトリクス名	単位	説明	アラート条件例 (合致したら発火)
`CPUUtilization`	%	EC2で使用されているCPU使用率をデータポイントとする。	・統計 : 期間内平均使用率・期間 : `5` 分・閾値 : `>= 80`
`MemoryUtilization`	%	EC2で使用されているメモリ使用率をデータポイントとする。	・統計 : 期間内平均使用率・期間 : `5` 分・閾値 : `>= 80`
`StatusCheckFailed_Instance`	カウント	インスタンスのインスタンスステータスの失敗数をデータポイントとする。インスタンスが停止してしまうようなインシデントに適する。反対に、インスタンスが正常に稼働していて、プロセスが停止しているようなインシデントを検出することには不適である。 https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html#types-of-instance-status-checks
`StatusCheckFailed_System`	カウント	インスタンスのシステムステータスの失敗数をデータポイントとする。AWSの障害によるインシデントの検出に適する。 https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html#types-of-instance-status-checks

https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/viewing_metrics_with_cloudwatch.html#ec2-cloudwatch-metrics

似たメトリクスに StatusCheckFailed_System や StatusCheckFailed_Instance がある。

これらは AWS 側が原因のメトリクスであるため、ユーザーが監視する必要はない。

https://awsjp.com/AWS/hikaku/StatusCheckFailed_System-StatusCheckFailed_Instance-hikaku.html

▼ Amazon ECS¶

名前空間を Amazon ECS クラスターまたは Amazon ECS サービスとしたメトリクスの監視ポリシーは以下の通りである。

ClusterName ディメンションと ServiceName ディメンションを使用して、Amazon ECS クラスターと Amazon ECS サービスに関するメトリクスを区別できる。

メトリクス名	単位	説明	アラート条件例 (合致したら発火)	補足
`CPUUtilization`	%	Amazon ECSクラスターまたはサービスで使用されているCPU使用率をデータポイントとする。	・統計 : 期間内平均使用率・期間 : `5` 分・閾値 : `>= 80`
`MemoryUtilization`	%	Amazon ECSクラスターまたはサービスで使用されているメモリ使用率をデータポイントとする。	・統計 : 期間内平均使用率・期間 : `5` 分・閾値 : `>= 80`
`RunningTaskCount`	カウント	稼働中のAmazon ECSタスク数をデータポイントとする。		Amazon ECSタスク数の増減の遷移から、デプロイのおおよその時間がわかる。

https://docs.aws.amazon.com/AmazonECS/latest/developerguide/cloudwatch-metrics.html#available_cloudwatch_metrics

▼ Amazon ElastiCache Redis¶

名前空間を Amazon ElastiCache Redis としたメトリクスの監視ポリシーは以下の通りである。

メトリクス名	単位	説明	アラート条件例 (合致したら発火)	補足
`BytesUsedForCache`	バイト数	Redisで使用されているメモリ使用サイズをデータポイントとする。	・統計 : 期間内合計サイズ・期間 : `5` 分・閾値 : `>= 8`GB
`CPUUtilization`	%	ノードのCPU使用率をデータポイントとする。	・統計 : 期間内平均使用率・期間 : `5` 分・閾値 : `>= 80`
`Evictions`	カウント	空きサイズを確保するために削除されたRedisのキー数をデータポイントとする。	・統計 : 期間内合計数・期間 : `5` 分・閾値 : `>= 1`
`SwapUsage`	バイト数	ストレージ上のスワップ領域の使用サイズをデータポイントとする。	・統計 : 期間内最大サイズ・期間 : `5` 分・閾値 : `>= 50`GB	使用可能な最大メモリを超えると、Redisはストレージ上のスワップ領域を使用する。 https://zenn.dev/dehio3/scraps/710a9714ce9496

https://docs.aws.amazon.com/AmazonElastiCache/latest/red-ug/CacheMetrics.WhichShouldIMonitor.html

▼ Amazon Aurora¶

名前空間を Amazon Aurora としたメトリクスの監視ポリシーは以下の通りである。

メトリクス名	単位	説明	アラート条件例 (合致したら発火)	補足
`BlockedTransactions`	カウント	秒当たりトランザクションの拒否の回数をデータポイントとする。	・統計 : 期間内合計数・期間 : `5` 分・閾値 : `>= 1`
`CPUUtilization`	%	Amazon AuroraのDBインスタンスのCPU使用率をデータポイントとする。	・統計 : 期間内平均使用率・期間 : `5` 分・閾値 : `>= 80`
`DatabaseConnections`	カウント	Amazon AuroraのDBインスタンスへの接続数をデータポイントとする。失敗した接続も含まれている可能性があり、実際よりはやや多めに計測される。	・統計 : 期間内合計数・期間 : `5` 分・閾値 : `>= 400`	クライアントがDBにリクエストしている時間帯がわかるため、メンテナンスウィンドウを実施時間の参考になる。
`Deadlocks`	カウント	秒当たりデッドロック平均数をデータポイントとする。	・統計 : 期間内合計数・期間 : `5` 分・閾値 : `>= 1`
`EngineUptime`	秒	インスタンスの起動時間をデータポイントとする。		ダウンタイムの最低発生時間の参考になる。
`DMLLatency`	マイクロ秒	Amazon AuroraのDBインスタンスに対するDML系クエリの遅延秒数をデータポイントとする。	・統計 : 期間内最大サイズ・期間 : `5` 分・閾値 : `>= 2`GB
`FreeableMemory`	バイト数	Amazon AuroraのDBインスタンスの使用できるメモリの最大空きサイズをデータポイントとする。	・統計 : 期間内最大サイズ・期間 : `5` 分・閾値 : `>= 2`GB
`FreeLocalStorage`	バイト数	Amazon AuroraのDBインスタンスの使用できるローカルストレージの最大空きサイズをデータポイントとする。	・統計 : 期間内最大サイズ・期間 : `5` 分・閾値 : `>= 10`GB	DBインスタンスのローカルストレージは、一時テーブルやログの保管に使用される。
`LoginFailures`	カウント	Amazon AuroraのDBへのログインの失敗回数をデータポイントとする。	・統計 : 期間内合計数・期間 : `5` 分・閾値 : `>= 1`

https://docs.aws.amazon.com/AmazonRDS/latest/AuroraUserGuide/Aurora.AuroraMySQL.Monitoring.Metrics.html

▼ Amazon RDS¶

名前空間を Amazon RDS としたメトリクスの監視ポリシーは以下の通りである。

Amazon RDS のコンソール画面にも同じメトリクスが表示されるが、単位が MByte であり、Amazon CloudWatch Metrics と異なることに注意する。

メトリクス名	単位	説明	アラート条件例 (合致したら発火)	補足
`CPUUtilization`	%	DBインスタンスのCPU使用率をデータポイントとする。	・統計 : 期間内平均使用率・期間 : `5` 分・閾値 : `>= 80`
`DatabaseConnections`	カウント	DBインスタンスへの接続数をデータポイントとする。失敗した接続も含まれている可能性があり、実際よりはやや多めに計測される。	・統計 : 期間内合計数・期間 : `5` 分・閾値 : `>= 400`	クライアントがDBにリクエストしている時間帯がわかるため、メンテナンスウィンドウを実施時間の参考になる。
`FreeableMemory`	バイト数	DBインスタンスの使用できるメモリサイズをデータポイントとする。	・統計 : 期間内最大サイズ・期間 : `5` 分・閾値 : `>= 2`GB

https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/monitoring-cloudwatch.html#rds-metrics

▼ Amazon S3¶

名前空間を Amazon S3 としたメトリクスの監視ポリシーは以下の通りである。

メトリクス名	単位	説明	アラート条件例 (合致したら発火)
`5xxErrors`	カウント	S3バケットが原因で返信した `500` 系ステータスをデータポイントとする。	・統計 : 期間内合計数・期間 : `5` 分・閾値 : `>= 1`