Category: 入門編
2022.05.11
目次
システムを安定稼働させるための方法とは?迅速な障害対応の方法を解説
自社のサービスを健全に運営するためには、システムを安定稼働させることが必要です。長期間、システムを安定稼働させるためには、サーバーやネットワークなどのインフラの監視が必要不可欠です。特にサーバーの監視は、アプリケーションやOS・ミドルウェアの異常を速やかに検知することで、サービスへの影響を最小限に留め迅速に必要なアクションを取ることができるため非常に重要です。
本記事では、サーバー監視の概要と重要性、サーバーの監視対象と監視方法について解説します。
1. サーバー監視とは
ひと言で監視と言っても、監視の対象は多岐に渡ります。まずは監視とは何か、サーバー監視とはどのようなものかについて解説します。
1.1 監視とは
監視とは、システムを構成するサーバー、ネットワーク機器、ストレージなどに対して、定期的にそれぞれの稼働状況をチェックすることを指します。サーバーに搭載されているアプリケーションやOS、ネットワーク機器などのインフラに異常が発生した場合は速やかに検知・通知を行い、原因特定の支援を行います。監視はシステム安定稼働のために重要な役割を担っています。
1.2 サーバー監視とは
サーバー監視とは、監視の中でも、名前の通りサーバーの稼働状況を定期的にチェックすることを指します。サーバーは下記のように複数の要素で構成されているため、それぞれの要素単位で個別に稼働状況をチェックする必要があります。
- アプリケーション/サービス
- ミドルウェア
- OS
- ハードウェア
これらの稼働状況に異常が発生した場合は、運用担当者に向けてパトランプやメール、監視ツールの画面などを通じて通知を行います。その後、ログを解析するなどの原因究明や、サーバー再起動やアップデートなどの対処を行います。
2. サーバー監視の目的と重要性
次に、サーバー監視の目的と重要性について解説します。
2.1 サーバー監視の目的
サーバー監視はシステムの安定稼働に重要な役割を担いますが、サーバー監視を行う目的は下記の通りです。
- サーバーの正常監視
- サーバーの異常監視
2.1.1 サーバーの正常監視
正常監視とは、サーバーの構成要素であるハードウェア、OS、ミドルウェア、アプリケーションが正常に動作していることを確認するために実施します。一般的には、サーバーが正常に動作していることを管理者が理解できるようグラフィカルに表示します。
2.1.2 サーバーの異常監視
異常監視とは、サーバーの構成要素に問題が発生した場合に速やかに管理者に通知するために実施します。音声通知、ランプ点灯、メール、監視画面へのアラート表示などの方法があります。
2.2 サーバー監視の重要性
サーバー監視を行うことで、ハードウェア故障の前兆を検知し大規模障害を予防することができます。また、アプリケーション、ミドルウェア、OSなどの不具合を速やかに検知することで、障害の拡大を防ぎ、被害を最小限に抑えることができます。
また、障害発生時は、監視により被疑箇所を絞り込むことで、復旧までの時間を短縮することもできます。サーバー監視を行わないと大規模障害の予防や障害復旧に時間を要することになるため、安定かつ継続的にサービス提供するためには必須の仕組みと言えます。
3. サーバー監視の監視対象と監視方法
サーバー監視とは、サーバーに搭載されるOS、ミドルウェア、アプリケーション、サービスの状態を監視し、異常が発生したら速やかに通知する仕組みです。システムの安定稼働のために重要な役割を担うサーバー監視ですが、監視対象は多岐に渡り、人間が常時監視を行うことは困難です。従って、一般的には監視ツールと呼ばれるソフトウェアを使用して監視を行います。
3.1 監視ツールとは
監視ツールとは、サービス、アプリケーション、各種インフラが安定稼働するようにリアルタイムで稼働状況を監視するミドルウェアです。主要な製品としてJP1やOpenView、Zabbixなどがあります。監視ツールは主に下記の機能を提供します。
- ログ/メトリクスの収集:監視対象の状態を示す情報を収集する
- 稼働状況の判定:現在の状態が正常か異常かを判定する
- 障害の通知:障害発生時はリアルタイムに通知を行う
- 障害の原因特定:障害対応時に原因特定につながる情報を提供する
これらの機能はいずれも基本的な機能ですが、監視ツールによって、クラウド型のサービス形態を選択できたり、監視状況をグラフィカルに表示をしてくれたり、自由にカスタムできるレポートを出力してくれるなど製品によって特長があります。そのため、自社の要件に見合ったツールを選定することが重要です。
3.2 サーバーの監視対象と監視方法
サーバーで監視が必要な監視対象は下記の通りです。ここではそれぞれの監視方法について解説します。
- ログ監視
- ハードウェア監視
- 死活監視
- トラフィック監視
- アプリケーション監視
- ジョブ監視
- パフォーマンス監視
3.2.1 ログ監視
ログ監視とは、ハードウェア、OS、ミドルウェア、アプリケーションが出力するログを監視する仕組みです。ログに異常が書き込まれた場合はそれを検知・通知します。
3.2.2 ハードウェア監視
ハードウェア監視は、ネットワークを介してサーバーのハードウェアと通信を行いステータス取得・把握する仕組みです。電源、バッテリー、ファン、CPUなどのコンポーネント単位でステータス変化を検出して異常となった場合は検知・通知を行います。
3.2.3 死活監視
死活監視は、ネットワークを介してサーバーが起動していることを監視する仕組みです。Ping(ピング/ピン)というコマンドを利用してサーバーのIPアドレスへアクセスを行い、稼働状態をチェックします。
3.2.4 トラフィック監視
トラフィックとは、通信ネットワーク上を流れる単位時間あたりのデータ量を指します。トラフィック監視は、ネットワークを介してサーバーと通信するデータ量をチェックし、データ転送量の把握や、現在のインターフェースの帯域幅で問題ないかを判断するために行います。
3.2.5 アプリケーション監視
アプリケーション監視は、サーバー上で動作するアプリケーションの状態監視を行います。APM(Application Performance Manager)ツールを利用して、データベースへの問い合わせやAPI呼び出しなど、アプリケーションのパフォーマンスに影響する箇所の管理・監視を行います。また、Web画面が正常に動作することの確認などもアプリケーション監視に含まれます。
3.2.6 ジョブ監視
ジョブとは、一般的にはジョブスケジューラーと呼ばれる運用管理ツールで制御・実行されるバッチ処理の単位を指します。ジョブ監視は、ジョブの実行状況を監視し、正常終了や異常終了、警告終了などを検知・通知するために行います。
3.2.7 パフォーマンス監視
パフォーマンス監視は、サーバーのCPU、メモリ、ディスク容量など、サーバーのパフォーマンスに影響するマシンリソースの使用状況を可視化・監視します。それぞれのリソースにおいて使用率の閾値(しきい値)を設け、閾値を超えた場合は検知・通知を行います。使用状況を可視化することで、リソースの拡張タイミングなどの分析にも役立ちます。
4. まとめ
サーバー監視は、サーバーの異常を速やかに検知し、パフォーマンスの状況を把握して自社のサービスを健全に運営するために必要な仕組みです。ただし、企業によって監視に求める機能・要件は異なりますので、自社の要件を適切に定義・把握してそれに見合った監視ツールを選定することが重要です。
資料ダウンロード
課題解決に役立つ詳しいサービス資料はこちら
-
-
<監視ツール導入ガイド>監視ツールの重要性と導入時に注意すべきポイントを紹介 〜合計13ページの主要製品比較表付き!〜
本資料を読むことで、監視ツール運用時によくあるお悩みや監視ツール導入時に留意すべきポイント、主要7製品の特徴や機能の違いを押さえることができます。
-
-
-
統合システム監視ツール Pandora FMS Enterprise カタログ
直感的で操作性に優れたユーザインターフェイスを持ち、1つのシステムでマルチテナント環境を実現できる統合システム監視ツール Pandora FMS Enterprise、Pandora FMS Enterprise SaaS の機能、サポート内容、料金をご確認いただけます。
-
-
-
システム運用代行サービスカタログ
システム運用代行サービスのメニューと料金をご確認いただけます。
-
関連サービス
大規模システム向け統合システム監視ツール Pandora FMS Enterprise
世界194か国から120万ダウンロード以上の支持を得るオープンソースの監視ツール Pandora FMSに、大規模システム向け機能を追加した Pandora FMS Enterprise。オープンソースベースの商用製品だから実現できる「運用コストの削減」と「使い勝手の良さ」が特徴です。
24時間365日のシステム監視・障害対応を任せたい
障害発生時には、エンジニアが手順に基づく対応に加えて、技術的ノウハウに基づく対応を行い、サービスを復旧させます。また、障害の根本解決方法をご提案します。
Tag: サーバー監視
Contactお問い合わせ
お見積もり・ご相談など、お気軽にお問い合わせください。