PagerDuty@インシデント管理ツール¶
はじめに¶
本サイトにつきまして、以下をご認識のほど宜しくお願いいたします。
01. PagerDutyの仕組み¶
PagerDutyをインシデント管理ツールとして使用する。
AWS CloudWatchアラームに通知されたエラーイベントの内から、特に重要なものをPagerDutyでインシデントとして対処する。
また、各ロールの担当者にオンコールを自動的にエスカレーションする。
(1)
-
AWS CloudWatchアラームからPagerDutyのServiceに、インシデントを通知する。
(2)
-
Runbook Automationが、インシデントの自動復旧を試みる。
(3)
-
Runbook Automationがインシデントを解決できなかったとする。
PagerDutyのServiceは、インシデントを責任者 (インシデントコマンダー) のメールや電話に通知する。
執筆時点 (2022/12/26) では、電話での通知は英語である。
(4)
-
インシデントの通知を受けたオンコール担当者は、PagerDutyのServiceを確認する。
(5)
-
解決フェーズがOpenになっているインシデントを確認し、問題を解決する。
(6)
-
問題を解決できれば、Resolved状態に移行する。
02. インシデント¶
インシデントの解決フェーズ¶
▼ PagerDutyの解決フェーズ¶
インシデントには解決フェーズがあり、PagerDutyではそれ管理できる。
▼ 解決フェーズの種類¶
PagerDutyでは、以下の解決フェーズを設定できる。
解決フェーズ | 説明 |
---|---|
Triggered | アラートがインシデントとして見なされ、タスクが作成された。再現性の低い瞬間的なインシデントであれば、Acknowledgedフェーズを経ずに、そのままResolvedにしても良い。 |
Acknowledged | インシデントのタスクに対応中であるが、まだ解決できていない。一定期間、Resolvedフェーズに移行しない場合は、再びTriggeredフェーズに戻る。 |
Resolved | インシデントのタスクを解決した。 |
▼ Resolvedへの自動的な移行¶
解決フェーズが一定時間TriggeredフェーズのままでResolvedに移行しない場合、自動的にResolvedに移行するように設定できる。
注意点として、自動移行でResolvedになったインシデントは、同じインシデントが発生しない限り、Triggeredフェーズに戻ることはない。
インシデントの通知抑制¶
- 特定のシステムを無視
- インシデントの一時無効化
- エラーイベントの重要度レベルの調節
- インシデントのグループ化
担当ロール¶
▼ 担当ロールとは¶
インシデントの対応にあたり、チームのメンバーにロール (例:Commander) を割り当てておくとよい。
インシデントコマンドシステムを採用し、ロールを決める。