オンコール@監視¶
はじめに¶
本サイトにつきまして、以下をご認識のほど宜しくお願いいたします。
01. オンコール¶
オンコールとは¶
アラートが通知された時に、エラー修正の担当者に連絡できる状態 (メールアドレス、電話番号、SMSなど) にあること。
オンコール対応時間¶
▼ グローバル企業の場合¶
グローバル企業の場合、世界各地にオンコールセンターを配置している。
各オンコールセンターには時差があるため、特定の時間に、どこかの国でオンコールセンターが必ず営業している。
アラートのタイミングで営業しているオンコールセンターに通知を送信するため、『24時間365日対応可能』といったサービスを提供できる。
02. アラートの設定¶
アラート発火の事前検証¶
▼ システムの実際値の変更¶
アラートが発火するように、システムの実際値を調節 (例:負荷を高める) し、アラートが発火するかを検証する。
▼ 閾値の変更¶
必ずアラートが発火するような閾値 (例:ゼロ) に変更し、アラートが発火するかを検証する。
アラートの付加情報¶
▼ イベントの内容¶
- タイムスタンプ
- ログステータス
- ログメッセージ
▼ ラベル¶
- 実行環境名
- リージョン名
- Cluster名
- Node名
- Namespace名
- Pod名
- マイクロサービス名
- コンテナ名
03. エラーイベント重要度 (severity) レベル¶
エラーイベント重要度レベルとは¶
全ての事象をエラーイベントとして見なしてしまうと、アラート疲れしてしまう。
そのため、どのようなイベントをエラーイベントと見なしてアラートを通知するか否かを確認するかを決めておく必要がある。
また、レベルに応じてアラート先のチャンネルを区別すると良い。
| メトリクスの単位 | エラーイベントと見なす閾値例 | 閾値とするメトリクス例 | 補足 |
|---|---|---|---|
| パーセント | 60% |
CPU使用率、メモリ使用率など | 平常時は30%である仮定し、エラーイベントと見なす閾値を60%に設定することが多い。 |
| カウント | 1〜3個 |
ログステータス、ステータスコードなど | どのログステータスやステータスコードをカウントするかを決める必要がある。 |
| バイト数 | メトリクスによる | メモリの空きサイズ、ストレージのスワップ領域の使用サイズなど | メトリクスによって、エラーイベントと見なせるバイト数が異なる。 |
カウントする必要があるステータスの判断¶
▼ ステータスの重要度レベルへの変換¶
ステータスは、重要度を判断しやすいように、重要度レベルに変換して考える。
該当の重要度レベルに当てはまるステータスのみを、エラーイベントとしてカウントする。
| 重要度レベルの例 | エラーイベントと見なし、アラートを通知するか否かの判断例 |
|---|---|
| critical | する |
| warning | しない |
| information | しない |
▼ ログステータスの場合¶
エラーイベントと見なすログステータスの目安は以下の通りである。
| ログステータス | 説明 | 重要度レベルへの変換例 |
|---|---|---|
| emergency | システムが使用できない状態にある緊急事態 | critical |
| alert | 早急に対応すべき事態 | critical |
| critical | 対処すべき重要な問題 | critical |
| fatal | 対処すべき重要な問題 | critical |
| error | 何かが失敗している | criticalまたはwarning |
| warn | 普通ではないことが発生したが、心配する必要はない | criticalまたはwarning |
| notice | いたって普通だが、注意すべきことが起こっている | information |
| info | 知っておくといいかもしれない情報 | information |
| debug | 問題が起こっている場所を知るのに有効な情報 | information |
▼ ステータスコードの場合¶
エラーイベントと見なすステータスコードの目安は以下の通りである。
各ステータスコードをバラバラに扱うことは大変なため、系ごとにまとめて扱えるように、レベルを割り当てる。
| ステータスコード | 本番環境のアラートの目安 | 重要度レベルへの変換例 |
|---|---|---|
500系 |
する | critical |
400系 |
どちらでも | warning |
300系 |
しない | information |
200系 |
しない | information |