

ここでは「迅速な障害切り分けを可能にする、監視ポイントの設定の仕方」を見ていきます。
システム監視の2つの目的(「サービスの正常性の監視」「障害予防と障害原因の特定」)については、「システム監視とは?サービスの正常性確認、障害の予防と原因特定」をご参照ください。
監視項目を設計する際の考え方
監視ポイントは、下記手順で特定していきます。
(1) 何のサービスを監視するのか、を特定する。
(2) サービスを提供するために必要な要素は何か、を特定する。
(3) 必要な要素はどう絡み合うのか、を特定する。
(1) 何のサービスを監視するのか。対象システムの役割を定義する
外部から取得するデータを加工してコンテンツを提供するWebサイトを例にとって考えていきます。Webシステムの役割は3つに分けられます。
- ① Webページを表示する
- ② 外部データベースサービスから、決まったスケジュールでデータを取り込む
- ③ 画像やテキストなどのコンテンツを登録できる
Webシステムがこの役割を果たしているか(サービスを提供できているか)の判断基準となるポイントが、監視対象になります。


(2) サービスを提供する(役割を果たす)ために必要な要素は何か
役割「① Webページを表示する」を果たすために必要な要素に分解していきます。


例にあげたWebシステムの場合、外部サービスからのデータ取込や、コンテンツデータ登録の正常性も Webサイト表示には必要なので、「→NO: 他に必要な要素は何か?」となり、要素分解を続ける必要があります。
(3) 必要な要素はどう絡み合うのか
「① Webページを表示する」を正常に実現するためには、「② 外部データを取り込む」と「③ コンテンツを登録する」が正常に完了している必要があります。
Webシステムの役割:
- ① Webページを表示する
- ② 外部データベースサービスから、決まったスケジュールでデータを取り込む
- ③ 画像やテキストなどのコンテンツを登録できる
また、「図2:サービス提供のために必要な要素」で見た通り、それぞれの役割(サービス)は要素に枝分かれしており、それらのどれか1つでも動作不良になれば、「障害」または「障害の前兆」につながります。
Webサービスを提供するために必要な要素の一般例
以下に、Webサービスを提供するために必要な要素の一般的な項目を挙げます。
例えば、外部サービスと連携している場合は、連携先API の状態も監視対象に含める必要があります。
監視の種類 | 監視対象 | 具体的な項目 | |
---|---|---|---|
サービスの監視 | URL応答監視 | URL応答 | 応答コード、応答文字列、応答時間 |
画面遷移監視 | 画面遷移 | 画面遷移(シナリオ)の正常性、応答時間 | |
インフラの監視 | ハードウェア監視 | ハードウェアステータス | pingによる疎通確認、物理HDD状態、論理HDD状態、電源状態、CPU状態、メモリー状態、ファン状態、温度状態 |
リソース監視 | メモリー | メモリー利用情報 (実メモリ使用量、スワップ使用量など) |
|
ネットワークトラフィック | 送受信byte/sec | ||
CPU関連 | ロードアベレージ、CPU使用率 (I/Oウエイト、システムCPU使用率、ユーザCPU使用率など) |
||
ディスク | ディスク空き容量、ディスク使用率、ディスク使用量、ディスク容量 | ||
プロセス監視 | プロセス所在 | syslog, crond, ntpd, xinetd, sshd, httpd, mysqld, postmaster, portmap, nfs, rpc.mountd, namedなど | |
プロセス稼働 | インターネット経由 httpd応答監視、httpd応答監視(サーバーローカル)、smtp応答監視、Oracle応答監視など | ||
セッション数 | httpdセッション数 | ||
ログ監視 | ログ | messages監視、Oracleログ監視、tomcatログ監視、アプリケーション監視 など |
障害が発生したら、まずは原因特定
障害が発生したらまず、何が問題で障害が起きたのか、特定する必要があります。
原因は、外部の回線なのか、内部の回線なのか、Webサーバーなのか、DBサーバーなのか、サーバーで稼働するプロセスなのか、ハードウェア自体なのか、など、検証するべき要素は多くあります。また、だいたいにおいて、障害は複数要素の複合的要因で発生します。
システムを構成する要素の状態を監視しておけば、「障害につながる要素」「要素間の繋がり」がわかり、原因切り分けが容易になり、迅速に障害復旧することができます。次に、障害復旧のフローを見ていきます。
関連コンテンツ
アールワークスのシステム運用サービス

【運用設計サービス】
お客様システムに即した監視項目、運用フロー(障害発生時/定常時/メンテナンス時)を設計します。現状の監視・運用フローを見直したい場合に適切です。
詳しくはこちらから。

【システム監視・通報サービス】
24時間365日の監視・通報を行います。システム監視をアウトソースし、障害対応はお客様にて実施したい場合にお薦めです。監視設計は当社にて実施します。
詳しくはこちらから。
サービスへのお問い合わせ
システム運用サービスに関する資料のご送付をご希望の方、
サービス内容についてのお問い合わせご希望の方は、
お問い合わせフォームまたは電話番号よりご連絡ください。