Service&Product

AWS監視・障害対応プラン

AWS監視、障害通知に加えて、エンジニアが障害対応を行うプランです。

当社にて障害対応手順書を作成します。24時間365日のシステム監視を行い、障害発生時には、エンジニアが手順に基づく対応に加えて、技術的ノウハウに基づく対応も行い、サービス復旧します。またお客様への障害通知は、メール、Slack、ChatWork、LINE、自動音声電話通知で行うことができます。

エンジニアに手厚く障害対応してほしい場合に最適です。

AWS監視・障害対応プラン ご提供内容

  • 24時間365日体制

    24時間365日体制

  • AWS監視

    システム監視

  • AWS手順書対応

    手順書対応

  • AWS手順書外対応

    手順書外対応

  • AWS障害根本解決策のご提示

    障害根本解決策のご提示

  • AWS連絡・情報共有

    障害対応レベルに応じた
    関係者との連絡・調整

  • AWSベンダコントロール

    ベンダコントロール

  • マルチベンダ

    マルチベンダ

  • AWS前月分の稼働状況レポート

    前月分の稼働状況レポート
    前月分の障害報告・
    運用代行一覧

インスタンスの監視・情報収集

  • 監視対象のインスタンスにソフトウエアエージェントをインストールし、情報送信先を監視サーバーに設定するだけで、インスタンスのディスク使用量やロードアベレージ・ネットワーク使用量等の収集を開始します。
  • 仮想サーバー以外のインスタンスに対しても監視サーバーから AWS のAPI経由で情報を収集することができます。
  • 監視しきい値を設定し、閾値を超えたときにメールを送るように設定すれば、障害通知を受信できます。
  • オプションとしてインターネットを経由しないネットワーク接続(専用線やIP-VPNなど)をご用意することも可能です。ご要望をお聞かせください。

※ 表中に記載した内容は、代表的な項目を例として挙げております。お客様のシステムに応じて最適な監視項目をご提案いたします。

監視対象 監視概要
EC2
(仮想サーバーホスティング)
CPUやメモリといったリソース使用量や、各インスタンスで稼働するプロセスの存在監視、応答監視を行います。
また AWS API経由でインスタンスステータスやメンテナンス予告を監視します。 定期バックアップを行っている場合は、バックアップ正常性を監視します。
RDS/Aurora
(リレーショナルデータベースサービス)
エンドポイントに対して、DB接続やSQLクエリ応答を監視します。
AWS API経由でクラスタ(インスタンス)ステータス、フェイルオーバー発生などのイベント、メンテナンス予告を監視します。
また、コネクション数やCPUなどのCloudWatchメトリクスを監視します。
ALB/NLB/CLB
(ロードバランサー)
正常なターゲット(ロードバランサー配下のインスタンス)の数、及び、コネクション数やHTTP応答コード数などのCloudWatchメトリクスを監視します。
S3
(ストレージサービス)
AWS API経由でファイルリスト取得可否、ファイル取得可否、ストレージ使用量を監視します。
SES
(メールサービス)
定期的にテストメールを送信し、メール受信を確認します。
また、バウンス率、苦情率などのCloudWatchメトリクスを監視します。
CloudFront
(コンテンツ配信ネットワークサービス)
リクエスト数、HTTP応答コードのエラー率、キャッシュヒット率(AWS側で追加設定が必要)などのCloudWatchメトリクスを監視します。
ElasticCache (Memcached/Redis)
(インメモリキャッシングシステム)
AWS API経由でクラスタステータス、ノード障害発生と復旧ログやメンテナンスなどのイベントを監視します。
また、コネクション数やCPUやスワップ使用率などのCloudWatchメトリクスを監視します。
SQS
(メッセージキューイングサービス)
キューに追加されたメッセージ数、削除されたメッセージ数、取得可能なメッセージ数、及び、最も古いメッセージの経過時間などのCloudWatchメトリクスを監視します。
Redshift
(クラウドデータウェアハウス)
AWS API経由でクラスタステータス、ノード障害発生と復旧ログやメンテナンスなどのイベントを監視します。
また、コネクション数やCPUやクエリ完了時間などのCloudWatchメトリクスを監視します。
Beanstalk
(アプリケーションデプロイサービス)
AWS API経由で環境のヘルスステータスを監視します。
正常なターゲット(ロードバランサー配下のインスタンス)の数、及び、コネクション数やHTTP応答コード数などのCloudWatchメトリクスを監視します。
ECS
(コンテナオーケストレーションサービス)
サービス内で実行中のタスク数、及び、クラスタやサービスのCPUやメモリなどのCloudWatchメトリクスを監視します。
EFS
 (EC2用ファイルサービス)
マウントされているEC2インスタンスから、EFS パーティションに対して読み書き出来るかを監視します。
DynamoDB
 (NoSQLデータベースサービス)
HTTP応答コードのエラー数、及び、消費キャパシティユニット(読み書き使用量)やレイテンシーなどのCloudWatchメトリクスを監視します。
Directory service(SimpleAD/Maneged Microsoft AD)
 (AWS Directory サービス)
AWS API経由で、ディレクトリのステータスを監視します。
Lambda
 (サーバーレスコンピューティングサービス)
呼び出し回数、実行時間、正常終了しなかった回数などのCloudWatchメトリクスを監視します。
トリガがAPI Gatewayの場合は外形監視を行います。
アプリケーションログがCloudWatch Logsに出力されている場合はログ監視を行います。
API Gateway 外形監視として、応答コードや応答時間を監視します。
VPN トンネルの Up/Down を監視します。

監視項目と監視手法

  • 障害を検知すると、自動電話、メール、チャットにより通知いたします。
  • 障害一次対応を行います(復旧スクリプトによる該当プロセスやサービスの再起動、復旧スクリプトによる対象インスタンスの再起動、エンジニアによる障害一次対応)。
  • チケットシステムへインシデントを自動起票いたします。
  • オプションによる障害二次対応も承ります。
監視項目 監視対象 監視手法 監視間隔
プロセス存在監視 プロセスが存在しているかを監視 該当プロセスが存在しているかを監視します。 5分
※変更可能
プロセス応答監視 プロセスが応答するかを監視 監視サーバから該当プロセスへの接続を行い5秒以内に応答するかを監視します。 5分
※変更可能
サービス存在監視 サービスが存在しているかを監視 サービスが存在しているかを監視します。 5分
※変更可能
サービス応答監視 サービスが応答するかを監視 監視サーバから該当サービスへの接続を行い5秒以内に応答するかを監視します。 5分
※変更可能
リソース監視 サーバー機器のリソース監視 CPUやメモリといったリソース使用量の監視を行います。 5分
※変更可能
ログ監視 Windows イベントログ ログの名前、イベントソース、イベントID、レベル、ID、メッセージの正規表現等の条件をもとに抽出します。 5分
※変更可能
テキストベースのログファイル ログファイルの増分から任意の文字列(Error , Warning 等)を含む行を抽出します。
/var/log 以下のファイル
syslogが出力するファイル
アプリケーション独自のログファイル等
ジョブ監視 ジョブの実行結果 ジョブ終了時のアクションに、ジョブの実行結果を弊社監視環境へ通知します。 イベント発生時
PING 応答監視 応答の有無、応答時間 ping にて対象の応答を確認します。 5分
※変更可能
WEB サービス応答監視 応答コード、応答時間、応答内文字列チェック http または https 接続要求を送り、対象の応答を確認します。
SSL証明書期限監視 サーバー証明書の有効期間満了日までの期間 https接続にて証明書を取得し、残り期間を計算します。
FTP サービス稼働監視 ファイル取得可否、ファイル保存可否、ファイルリスト確認、応答時間確認 ftp にて要求を送り、対象の応答を確認します。
メールサービス稼働監視 メール送受信、接続確認、応答時間確認 各種メール関連プロトコル(imap, pop, smtp)で対象への応答を確認します。
DB応答監視 DB接続、SQLクエリ応答 各DB(MySQL,PostgreSQL,MSSQL)へ接続し、接続自体の可否確認および、SQLクエリを実行してその応答を確認します。
インスタンス稼働状態監視 インスタンスの稼働状態 ping疎通および、AWS APIを通してのインスタンスの稼働ステータスの取得します。

障害発生から対応完了までの流れ

AWS障害発生から対応完了までの流れ AWS障害発生から対応完了までの流れ

※ Amazon Web Service社へ障害原因解析・原因究明を行う場合、お客様が契約されるAWSのサポートプランにより対応レスポンスが変わります。

障害対応における行動目標

障害発生時における検出、解析、対応、報告に対する対応時間は、下記値を目標とします。

工程 概要 対応時間 行動目標
障害発生~障害検知 監視システムが障害を検知しアラートメールを送信します。 24時間365日 監視周期による
障害検知~障害認知・対応開始 監視システムからの障害通知を認知し、対応を開始します。 24時間365日 10分以内
状況確認~連絡 障害内容の確認を行い、所定の連絡先にエスカレーションを実施します。 24時間365日 対応における確認内容による
障害対応 手順書に基づき障害対応を実施します。 24時間365日
復旧確認 アラート復旧メール受信などで、障害の復旧を確認し、お客様へ報告する。 24時間365日 復旧後、5分以内

監視コンソール+ポータルサイト

お客様専用の監視コンソールおよびポータルサイトをご提供します。
システムの稼働状況を確認できるほか、システム運用に関する様々な情報項目を集約することで、効率的な情報共有を実現します。

集約・更新・共有する情報

  • 1システムの稼働状況

    監視コンソールから、システム稼働状況をリアルタイムに確認・共有できます。

    • 監視対象の稼働状況
    • リソース情報(数値データおよびグラフ表示)
    • アラート発報告状況
  • 2インシデント管理・
    障害管理

    ポータルサイトでインシデントをチケット化、共有し、クローズまで進捗管理します。

    • お客様からの問合せ内容
    • 発生した障害
    • 障害対応内容
    • 根本解決に向けたベンダ(開発元メーカ)への問合せ・検証作業
  • 3障害対応手順

    障害対応手順をポータルサイトで共有し、お客様と当社間で同じ認識のもと障害対応いたします。

    • 監視項目毎の障害対応手順
    • 手順外の障害が発生した場合は、当社にて手順書を作成しアップ
  • 4稼働状況レポート
    障害報告レポート

    月初、前月分の下記をレポートにし、運用ポータルサイトに掲載いたします。

    • 前月分の対象インスタンスのリソース推移グラフ
    • 前月に発生した障害一覧
  • 5運用作業管理

    ご依頼いただいた運用作業をポータルサイトでチケット化し、お客様と共有しながら進捗管理いたします。

料金

※表記金額は、全て税抜金額です。

内容 ご提供時間 初期費用 月額費用
AWS監視・障害対応
運用手順書作成
24時間365日 125,000円
(2インスタンス目以降
+5,000円
/インスタンス)
20,000円
/インスタンス
リソース推移レポート
障害報告・運用代行内容一覧
翌月初 無料 無料

・ご利用になるAWSサービスによって料金が異なります。詳しくはお問い合わせ下さい。

AWS運用代行サービスメニュー
  • アールワークスは、AWSコンサルティングパートナーです。
  • 徹底的な標準化と自動化で高品質の運用を低コストでご提供します。
  • 1997年から蓄積した運用ノウハウをもとに+αをご提案します。
Free

資料ダウンロード

課題解決に役立つ詳しいサービス資料はこちら

資料ダウンロード
  • システム監視・障害対応サービス・オプションサービス仕様書

    システム監視・障害対応サービス・オプションサービスのサービス仕様をご確認いただけます。

Contactお問い合わせ

お見積もり・ご相談など、お気軽にお問い合わせください。