System Monitoring Column <システム監視コラム>

Category: 監視設計編

2019.01.24

はじめに

ここでは「迅速な障害切り分けを可能にする、監視ポイントの設定の仕方」を見ていきます。
システム監視の2つの目的(「サービスの正常性の監視」「障害予防と障害原因の特定」)については、「システム監視とは?サービスの正常性確認、障害の予防と原因特定」をご参照ください。

監視項目を設計する際の考え方

監視ポイントは、下記手順で特定していきます。

(1) 何のサービスを監視するのか、を特定する。

(2) サービスを提供するために必要な要素は何か、を特定する。

(3) 必要な要素はどう絡み合うのか、を特定する。

(1) 何のサービスを監視するのか。対象システムの役割を定義する

外部から取得するデータを加工してコンテンツを提供するWebサイトを例にとって考えていきます。Webシステムの役割は3つに分けられます。

  • ① Webページを表示する
  • ② 外部データベースサービスから、決まったスケジュールでデータを取り込む
  • ③ 画像やテキストなどのコンテンツを登録できる

Webシステムがこの役割を果たしているか(サービスを提供できているか)の判断基準となるポイントが、監視対象になります。

Webシステムの役割
Webシステムの役割

(2) サービスを提供する(役割を果たす)ために必要な要素は何か

役割「① Webページを表示する」を果たすために必要な要素に分解していきます。

サービス提供のために必要な要素
サービス提供のために必要な要素

例にあげたWebシステムの場合、外部サービスからのデータ取込や、コンテンツデータ登録の正常性も Webサイト表示には必要なので、「→NO: 他に必要な要素は何か?」となり、要素分解を続ける必要があります。

(3) 必要な要素はどう絡み合うのか

「① Webページを表示する」を正常に実現するためには、「② 外部データを取り込む」と「③ コンテンツを登録する」が正常に完了している必要があります。

Webシステムの役割:

  • ① Webページを表示する
  • ② 外部データベースサービスから、決まったスケジュールでデータを取り込む
  • ③ 画像やテキストなどのコンテンツを登録できる

また、「図2:サービス提供のために必要な要素」で見た通り、それぞれの役割(サービス)は要素に枝分かれしており、それらのどれか1つでも動作不良になれば、「障害」または「障害の前兆」につながります。

Webサービスを提供するために必要な要素の一般例

以下に、Webサービスを提供するために必要な要素の一般的な項目を挙げます。
例えば、外部サービスと連携している場合は、連携先API の状態も監視対象に含める必要があります。

※「下記表は指でスライドさせてご覧いただけます。」
監視の種類 監視対象 具体的な項目
サービスの監視 URL応答監視 URL応答 応答コード、応答文字列、応答時間
画面遷移監視 画面遷移 画面遷移(シナリオ)の正常性、応答時間
インフラの監視 ハードウェア監視 ハードウェアステータス pingによる疎通確認、物理HDD状態、論理HDD状態、電源状態、CPU状態、メモリー状態、ファン状態、温度状態
リソース監視 メモリー メモリー利用情報
(実メモリ使用量、スワップ使用量など)
ネットワークトラフィック 送受信byte/sec
CPU関連 ロードアベレージ、CPU使用率
(I/Oウエイト、システムCPU使用率、ユーザCPU使用率など)
ディスク ディスク空き容量、ディスク使用率、ディスク使用量、ディスク容量
プロセス監視 プロセス所在 syslog, crond, ntpd, xinetd, sshd, httpd, mysqld, postmaster, portmap, nfs, rpc.mountd, namedなど
プロセス稼働 インターネット経由 httpd応答監視、httpd応答監視(サーバーローカル)、smtp応答監視、Oracle応答監視など
セッション数 httpdセッション数
ログ監視 ログ messages監視、Oracleログ監視、tomcatログ監視、アプリケーション監視 など

障害が発生したら、まずは原因特定

障害が発生したらまず、何が問題で障害が起きたのか、特定する必要があります。
原因は、外部の回線なのか、内部の回線なのか、Webサーバーなのか、DBサーバーなのか、サーバーで稼働するプロセスなのか、ハードウェア自体なのか、など、検証するべき要素は多くあります。また、だいたいにおいて、障害は複数要素の複合的要因で発生します。

システムを構成する要素の状態を監視しておけば、「障害につながる要素」「要素間の繋がり」がわかり、原因切り分けが容易になり、迅速に障害復旧することができます。次に、「障害対応の流れ:事前準備、一次対応、恒久対策の実行」で、障害復旧のフローを見ていきます。

関連サービス

監視・障害対応サービス

24時間365日のシステム監視・障害対応を任せたい

障害発生時には、エンジニアが手順に基づく対応に加えて、技術的ノウハウに基づく対応を行い、サービスを復旧させます。また、障害の根本解決方法をご提案します。

大規模システム向け統合システム監視ツールPandora FMS Enterprise

大規模システム向け統合システム監視ツール Pandora FMS Enterprise

世界194か国から120万ダウンロード以上の支持を得るオープンソースの監視ツール Pandora FMSに、大規模システム向け機能を追加した Pandora FMS Enterprise。オープンソースベースの商用製品だから実現できる「運用コストの削減」と「使い勝手の良さ」が特徴です。

クラウド型監視ツール Pandora FMS Enterprise SaaS

クラウド型監視ツール Pandora FMS Enterprise SaaS

直感的で操作性に優れたサーバー監視ツールをSaaSでご提供。充実のサポートですぐに監視を開始できます。

Free

資料ダウンロード

課題解決に役立つ詳しいサービス資料はこちら

資料ダウンロード
  • システム運用代行サービスカタログ

    システム運用代行サービスのメニューと料金をご確認いただけます。

  • 運用設計が丸わかり!クラウド運用課題解決への4ステップ(運用設計ガイド)

    クラウド運用課題を解決する「運用設計の考え方」「運用設計のフレームワーク」のポイントを解説します。

  • 統合システム監視ツール Pandora FMS Enterprise カタログ

    直感的で操作性に優れたユーザインターフェイスを持ち、1つのシステムでマルチテナント環境を実現できる統合システム監視ツール Pandora FMS Enterprise、Pandora FMS Enterprise SaaS の機能、サポート内容、料金をご確認いただけます。

システム運用個別相談会(無料)

Tag: システム監視 運用設計

Contactお問い合わせ

お見積もり・ご相談など、お気軽にお問い合わせください。

single.php