Category: 監視設計編
2019.01.24
目次
はじめに
ここでは「迅速な障害切り分けを可能にする、監視ポイントの設定の仕方」を見ていきます。
システム監視の2つの目的(「サービスの正常性の監視」「障害予防と障害原因の特定」)については、「システム監視とは?サービスの正常性確認、障害の予防と原因特定」をご参照ください。
監視項目を設計する際の考え方
監視ポイントは、下記手順で特定していきます。
(1) 何のサービスを監視するのか、を特定する。
(2) サービスを提供するために必要な要素は何か、を特定する。
(3) 必要な要素はどう絡み合うのか、を特定する。
(1) 何のサービスを監視するのか。対象システムの役割を定義する
外部から取得するデータを加工してコンテンツを提供するWebサイトを例にとって考えていきます。Webシステムの役割は3つに分けられます。
- ① Webページを表示する
- ② 外部データベースサービスから、決まったスケジュールでデータを取り込む
- ③ 画像やテキストなどのコンテンツを登録できる
Webシステムがこの役割を果たしているか(サービスを提供できているか)の判断基準となるポイントが、監視対象になります。
(2) サービスを提供する(役割を果たす)ために必要な要素は何か
役割「① Webページを表示する」を果たすために必要な要素に分解していきます。
例にあげたWebシステムの場合、外部サービスからのデータ取込や、コンテンツデータ登録の正常性も Webサイト表示には必要なので、「→NO: 他に必要な要素は何か?」となり、要素分解を続ける必要があります。
(3) 必要な要素はどう絡み合うのか
「① Webページを表示する」を正常に実現するためには、「② 外部データを取り込む」と「③ コンテンツを登録する」が正常に完了している必要があります。
Webシステムの役割:
- ① Webページを表示する
- ② 外部データベースサービスから、決まったスケジュールでデータを取り込む
- ③ 画像やテキストなどのコンテンツを登録できる
また、「図2:サービス提供のために必要な要素」で見た通り、それぞれの役割(サービス)は要素に枝分かれしており、それらのどれか1つでも動作不良になれば、「障害」または「障害の前兆」につながります。
Webサービスを提供するために必要な要素の一般例
以下に、Webサービスを提供するために必要な要素の一般的な項目を挙げます。
例えば、外部サービスと連携している場合は、連携先API の状態も監視対象に含める必要があります。
監視の種類 | 監視対象 | 具体的な項目 | |
---|---|---|---|
サービスの監視 | URL応答監視 | URL応答 | 応答コード、応答文字列、応答時間 |
画面遷移監視 | 画面遷移 | 画面遷移(シナリオ)の正常性、応答時間 | |
インフラの監視 | ハードウェア監視 | ハードウェアステータス | pingによる疎通確認、物理HDD状態、論理HDD状態、電源状態、CPU状態、メモリー状態、ファン状態、温度状態 |
リソース監視 | メモリー | メモリー利用情報 (実メモリ使用量、スワップ使用量など) |
|
ネットワークトラフィック | 送受信byte/sec | ||
CPU関連 | ロードアベレージ、CPU使用率 (I/Oウエイト、システムCPU使用率、ユーザCPU使用率など) |
||
ディスク | ディスク空き容量、ディスク使用率、ディスク使用量、ディスク容量 | ||
プロセス監視 | プロセス所在 | syslog, crond, ntpd, xinetd, sshd, httpd, mysqld, postmaster, portmap, nfs, rpc.mountd, namedなど | |
プロセス稼働 | インターネット経由 httpd応答監視、httpd応答監視(サーバーローカル)、smtp応答監視、Oracle応答監視など | ||
セッション数 | httpdセッション数 | ||
ログ監視 | ログ | messages監視、Oracleログ監視、tomcatログ監視、アプリケーション監視 など |
障害が発生したら、まずは原因特定
障害が発生したらまず、何が問題で障害が起きたのか、特定する必要があります。
原因は、外部の回線なのか、内部の回線なのか、Webサーバーなのか、DBサーバーなのか、サーバーで稼働するプロセスなのか、ハードウェア自体なのか、など、検証するべき要素は多くあります。また、だいたいにおいて、障害は複数要素の複合的要因で発生します。
システムを構成する要素の状態を監視しておけば、「障害につながる要素」「要素間の繋がり」がわかり、原因切り分けが容易になり、迅速に障害復旧することができます。次に、「障害対応の流れ:事前準備、一次対応、恒久対策の実行」で、障害復旧のフローを見ていきます。
関連サービス
24時間365日のシステム監視・障害対応を任せたい
障害発生時には、エンジニアが手順に基づく対応に加えて、技術的ノウハウに基づく対応を行い、サービスを復旧させます。また、障害の根本解決方法をご提案します。
大規模システム向け統合システム監視ツール Pandora FMS Enterprise
世界194か国から120万ダウンロード以上の支持を得るオープンソースの監視ツール Pandora FMSに、大規模システム向け機能を追加した Pandora FMS Enterprise。オープンソースベースの商用製品だから実現できる「運用コストの削減」と「使い勝手の良さ」が特徴です。
資料ダウンロード
課題解決に役立つ詳しいサービス資料はこちら
-
-
システム運用代行サービスカタログ
システム運用代行サービスのメニューと料金をご確認いただけます。
-
-
-
運用設計が丸わかり!クラウド運用課題解決への4ステップ(運用設計ガイド)
クラウド運用課題を解決する「運用設計の考え方」「運用設計のフレームワーク」のポイントを解説します。
-
-
-
統合システム監視ツール Pandora FMS Enterprise カタログ
直感的で操作性に優れたユーザインターフェイスを持ち、1つのシステムでマルチテナント環境を実現できる統合システム監視ツール Pandora FMS Enterprise、Pandora FMS Enterprise SaaS の機能、サポート内容、料金をご確認いただけます。
-
Contactお問い合わせ
お見積もり・ご相談など、お気軽にお問い合わせください。