コンテンツにスキップ

PagerDuty@インシデント管理ツール

はじめに

本サイトにつきまして、以下をご認識のほど宜しくお願いいたします。


01. PagerDutyの仕組み

pagerduty_on-call

ここでは、PagerDutyをインシデント管理ツールとして使用する。

CloudWatchアラームに通知されたアラートを、PagerDutyにインシデントとして通知し、これをオンコール担当者が対応すると仮定する。

(1)

CloudWatchアラームからPagerDutyのServiceに、インシデントを通知する。

(2)

PagerDutyのServiceから、インシデントがメールや電話に転送される。執筆時点 (2022/12/26) では、電話での通知は英語である。

(3)

インシデントの通知を受けたオンコール担当者は、PagerDutyのServiceを確認する。

(4)

解決フェーズがOpenになっているインシデントを確認し、問題を解決する。

(5)

問題を解決できれば、Resolved状態に移行する。


02. インシデント

インシデントの解決フェーズ

▼ PagerDutyの解決フェーズ

インシデントには解決フェーズがあり、PagerDutyではそれ管理できる。

▼ 解決フェーズの種類

PagerDutyでは、以下の解決フェーズを設定できる。

解決フェーズ 説明
Triggered アラートがインシデントとして見なされ、タスクが作成された。再現性の低い瞬間的なインシデントであれば、Acknowledgedフェーズを経ずに、そのままResolvedにしても良い。
Acknowledged インシデントのタスクに対応中であるが、まだ解決できていない。一定期間、Resolvedフェーズに移行しない場合は、再びTriggeredフェーズに戻る。
Resolved インシデントのタスクを解決した。

pagerduty_incident_phase

▼ Resolvedへの自動的な移行

解決フェーズが一定時間TriggeredフェーズのままでResolvedに移行しない場合、自動的にResolvedに移行するように設定できる。

注意点として、自動移行でResolvedになったインシデントは、同じインシデントが発生しない限り、Triggeredフェーズに戻ることはない。


インシデントの通知抑制

  • 特定のシステムを無視
  • インシデントの一時無効化
  • エラーイベントの重要度レベルの調節
  • インシデントのグループ化