お問い合わせ

システム監視とは?サービスの正常性確認、障害の予防と原因特定

効果的なシステム監視を行うには?(1)
効果的なシステム監視を行うには?(1)

システム監視とは

システムが稼働するインフラやシステムが提供するサービスの問題点をいち早く発見するために、システム稼働状況を定期的に確認することです。どの要素の、どの状態を「異常」として検知するかを定義し、異常検知時には、運用担当者へ通知します。

システム監視の目的

システム監視の目的は「インフラやサービスの障害をすばやく見つけること」です。
具体的に、下記2つの目的に分解して「何をどう監視するのか」を考えていきます。

(1)「サービスの正常性」を定期確認する:「サービスのシナリオ監視」

ビジネス機会を活かすためには「エンドユーザに正常にサービスを提供し続けること」が必要です。見積情報を取得するWebサイトを例に挙げると、

  • Webサイトへアクセスできること
  • 見積条件の入力、見積情報の取得などの一連の操作(シナリオ)を、正常に実行できること

が常に担保されている必要があり、どれかひとつでも処理に異常がある場合は、速やかに検知・復旧する必要があります。そのために、サービス(アプリケーション動作)をユーザ視点で定期監視する「シナリオ監視」を行います。

サービスのシナリオ監視
サービスのシナリオ監視

(2) 障害の「予防」と「原因特定」をする:「インフラ監視」

サービス継続のためには「障害の前兆を検知する予防」と「障害原因特定と再発防止」も必要です。

障害の前兆を検知する「予防」のための監視

例えば下図のような、Webサーバーが冗長化された構成のシステムにおいて、web1サーバーがダウンしたことを検知することは「予防」になります。

web1 と web2 のどちらかが稼働していれば Webサイト(https://example.com) へアクセス可能なため、直接的な影響は発生しません。しかし、web1サーバー、web2サーバーの両系で稼働していたシステムで web1 がダウンした場合、web2 は web1 の負荷も担わねばならず、web2 の負荷状況にサービス継続性が左右されてしまうことになります。

このように「現状ではサービスの継続はできているが、いつサービス停止(障害)になってもおかしくない状態」を迅速に検知するための監視が「予防のための監視」であり、サーバーやネットワークといったインフラを監視することで可能になります。

インフラ監視(予防)
インフラ監視(予防)

発生した障害の「原因特定」のための監視

一方で、冗長化していないDBサーバーである db1 がダウンした場合、WebサーバーとDBサーバーの連携が崩れることになり、Webサイト(https://example.com) にアクセスしてもエラー(障害)となります。

障害復旧のためには何が問題で障害が起きたのか、特定する必要があります。原因は、外部の回線なのか、内部の回線なのか、Webサーバーなのか、DBサーバーなのか、サーバで稼働するプロセスなのか、ハードウェア自体なのか、など。検証するべき要素は多くあります。
また、だいたいにおいて、障害は複数要素の複合的要因発生します。

システムを構成する要素の状態を監視しておけば、「障害につながる要素」「要素間の繋がり」がわかり、迅速な障害復旧が可能になります。

インフラ監視(原因特定)
インフラ監視(原因特定)

では、どこに監視ポイントを設定すれば、迅速な障害切り分けが可能になるのでしょうか?
次に、監視ポイントの設計する際の考え方を見ていきます。

関連コンテンツ

アールワークスのシステム運用サービス

運用設計

【運用設計サービス】
お客様システムに即した監視項目、運用フロー(障害発生時/定常時/メンテナンス時)を設計します。現状の監視・運用フローを見直したい場合に適切です。
詳しくはこちらから。

サービスへのお問い合わせ

システム運用サービスに関する資料のご送付をご希望の方、
サービス内容についてのお問い合わせご希望の方は、
お問い合わせフォームまたは電話番号よりご連絡ください。

03-5946-8405

お問い合わせはこちら

ご相談・お問い合わせはこちらから

サービスについてのご相談、資料のご請求など、お気軽にお問い合わせください。

03-5946-8400 平日 10:00 - 18:00
page top