お問い合わせ

システム監視項目をどう定義するのか

効果的なシステム監視を行うには?(2)
効果的なシステム監視を行うには?(2)

ここでは「迅速な障害切り分けを可能にする、監視ポイントの設定の仕方」を見ていきます。
システム監視の2つの目的(「サービスの正常性の監視」「障害予防と障害原因の特定」)については、「システム監視とは?サービスの正常性確認、障害の予防と原因特定」をご参照ください。

監視項目を設計する際の考え方

監視ポイントは、下記手順で特定していきます。

(1) 何のサービスを監視するのか、を特定する。

(2) サービスを提供するために必要な要素は何か、を特定する。

(3) 必要な要素はどう絡み合うのか、を特定する。

(1) 何のサービスを監視するのか。対象システムの役割を定義する

外部から取得するデータを加工してコンテンツを提供するWebサイトを例にとって考えていきます。Webシステムの役割は3つに分けられます。

  • ① Webページを表示する
  • ② 外部データベースサービスから、決まったスケジュールでデータを取り込む
  • ③ 画像やテキストなどのコンテンツを登録できる

Webシステムがこの役割を果たしているか(サービスを提供できているか)の判断基準となるポイントが、監視対象になります。

Webシステムの役割
Webシステムの役割

(2) サービスを提供する(役割を果たす)ために必要な要素は何か

役割「① Webページを表示する」を果たすために必要な要素に分解していきます。

サービス提供のために必要な要素
サービス提供のために必要な要素

例にあげたWebシステムの場合、外部サービスからのデータ取込や、コンテンツデータ登録の正常性も Webサイト表示には必要なので、「→NO: 他に必要な要素は何か?」となり、要素分解を続ける必要があります。

(3) 必要な要素はどう絡み合うのか

「① Webページを表示する」を正常に実現するためには、「② 外部データを取り込む」と「③ コンテンツを登録する」が正常に完了している必要があります。

Webシステムの役割:

  • ① Webページを表示する
  • ② 外部データベースサービスから、決まったスケジュールでデータを取り込む
  • ③ 画像やテキストなどのコンテンツを登録できる

また、「図2:サービス提供のために必要な要素」で見た通り、それぞれの役割(サービス)は要素に枝分かれしており、それらのどれか1つでも動作不良になれば、「障害」または「障害の前兆」につながります。

Webサービスを提供するために必要な要素の一般例

以下に、Webサービスを提供するために必要な要素の一般的な項目を挙げます。
例えば、外部サービスと連携している場合は、連携先API の状態も監視対象に含める必要があります。

※「下記表は指でスライドさせてご覧いただけます。」
監視の種類 監視対象 具体的な項目
サービスの監視 URL応答監視 URL応答 応答コード、応答文字列、応答時間
画面遷移監視 画面遷移 画面遷移(シナリオ)の正常性、応答時間
インフラの監視 ハードウェア監視 ハードウェアステータス pingによる疎通確認、物理HDD状態、論理HDD状態、電源状態、CPU状態、メモリー状態、ファン状態、温度状態
リソース監視 メモリー メモリー利用情報
(実メモリ使用量、スワップ使用量など)
ネットワークトラフィック 送受信byte/sec
CPU関連 ロードアベレージ、CPU使用率
(I/Oウエイト、システムCPU使用率、ユーザCPU使用率など)
ディスク ディスク空き容量、ディスク使用率、ディスク使用量、ディスク容量
プロセス監視 プロセス所在 syslog, crond, ntpd, xinetd, sshd, httpd, mysqld, postmaster, portmap, nfs, rpc.mountd, namedなど
プロセス稼働 インターネット経由 httpd応答監視、httpd応答監視(サーバーローカル)、smtp応答監視、Oracle応答監視など
セッション数 httpdセッション数
ログ監視 ログ messages監視、Oracleログ監視、tomcatログ監視、アプリケーション監視 など

障害が発生したら、まずは原因特定

障害が発生したらまず、何が問題で障害が起きたのか、特定する必要があります。
原因は、外部の回線なのか、内部の回線なのか、Webサーバーなのか、DBサーバーなのか、サーバーで稼働するプロセスなのか、ハードウェア自体なのか、など、検証するべき要素は多くあります。また、だいたいにおいて、障害は複数要素の複合的要因で発生します。

システムを構成する要素の状態を監視しておけば、「障害につながる要素」「要素間の繋がり」がわかり、原因切り分けが容易になり、迅速に障害復旧することができます。次に、障害復旧のフローを見ていきます。

関連コンテンツ

アールワークスのシステム運用サービス

運用設計

【運用設計サービス】
お客様システムに即した監視項目、運用フロー(障害発生時/定常時/メンテナンス時)を設計します。現状の監視・運用フローを見直したい場合に適切です。
詳しくはこちらから。


システム監視・運用

【システム監視・通報サービス】
24時間365日の監視・通報を行います。システム監視をアウトソースし、障害対応はお客様にて実施したい場合にお薦めです。監視設計は当社にて実施します。
詳しくはこちらから。

サービスへのお問い合わせ

システム運用サービスに関する資料のご送付をご希望の方、
サービス内容についてのお問い合わせご希望の方は、
お問い合わせフォームまたは電話番号よりご連絡ください。

03-5946-8405

お問い合わせはこちら

ご相談・お問い合わせはこちらから

サービスについてのご相談、資料のご請求など、お気軽にお問い合わせください。

03-5946-8400 平日 10:00 - 18:00
page top