コンテンツにスキップ

PagerDuty@インシデント管理ツール

はじめに

本サイトにつきまして、以下をご認識のほど宜しくお願いいたします。


01. PagerDutyの仕組み

pagerduty_on-call

PagerDutyをインシデント管理ツールとして使用する。

AWS CloudWatchアラームに通知されたエラーイベントの内から、特に重要なものをPagerDutyでインシデントとして対処する。

また、各ロールの担当者にオンコールを自動的にエスカレーションする。

(1)

AWS CloudWatchアラームからPagerDutyのServiceに、インシデントを通知する。

(2)

Runbook Automationが、インシデントの自動復旧を試みる。

(3)

Runbook Automationがインシデントを解決できなかったとする。

PagerDutyのServiceは、インシデントを責任者 (インシデントコマンダー) のメールや電話に通知する。

執筆時点 (2022/12/26) では、電話での通知は英語である。

(4)

インシデントの通知を受けたオンコール担当者は、PagerDutyのServiceを確認する。

(5)

解決フェーズがOpenになっているインシデントを確認し、問題を解決する。

(6)

問題を解決できれば、Resolved状態に移行する。


02. インシデント

インシデントの解決フェーズ

▼ PagerDutyの解決フェーズ

インシデントには解決フェーズがあり、PagerDutyではそれ管理できる。

▼ 解決フェーズの種類

PagerDutyでは、以下の解決フェーズを設定できる。

解決フェーズ 説明
Triggered アラートがインシデントとして見なされ、タスクが作成された。再現性の低い瞬間的なインシデントであれば、Acknowledgedフェーズを経ずに、そのままResolvedにしても良い。
Acknowledged インシデントのタスクに対応中であるが、まだ解決できていない。一定期間、Resolvedフェーズに移行しない場合は、再びTriggeredフェーズに戻る。
Resolved インシデントのタスクを解決した。

pagerduty_incident_phase

▼ Resolvedへの自動的な移行

解決フェーズが一定時間TriggeredフェーズのままでResolvedに移行しない場合、自動的にResolvedに移行するように設定できる。

注意点として、自動移行でResolvedになったインシデントは、同じインシデントが発生しない限り、Triggeredフェーズに戻ることはない。


インシデントの通知抑制

  • 特定のシステムを無視
  • インシデントの一時無効化
  • エラーイベントの重要度レベルの調節
  • インシデントのグループ化


担当ロール

▼ 担当ロールとは

インシデントの対応にあたり、チームのメンバーにロール (例:Commander) を割り当てておくとよい。

インシデントコマンドシステムを採用し、ロールを決める。