Managed Service Column <システム運用コラム>

運用設計の考え方と取り組み事例

Category: 運用設計編

2021.02.09

システムのクラウド移行が加速する中、「クラウドサービスを活用しているが、クラウド毎に個別に監視・運用をしているため、運用が煩雑化している。どうすればよいか?」「オンプレミスとクラウドを併用することになり、運用管理体制を見直したい」といったお声をいただくことも多くなりました。

システムは構築して終わりではなく、安定稼働するための運用が重要です。そして、システム運用の品質を担保しながら効率を上げていくためには、運用設計が必要となります。

この連載では、運用設計の考え方やの取り組みについて、事例も交えて紹介します(全12回)

はじめに

前回は、運用体制構築するための前提である「何を、どう管理するのか」の1つ、「可用性管理」について、取り組み事例(当社の場合)も交えてご紹介しました。

今回は、「ITサービス継続性管理」をテーマにお話しします。

ITサービス継続性管理とは

目的

可用性管理が日常の障害に備える管理プロセスであるのに対し、ITサービス継続管理は、天災、テロなどの災害によってサービスが停止に追い込まれた際、サービス利用者と合意した、もしくは自社で定義した時間内にサービスを復旧させ、ビジネスインパクトを最小限度に抑えるためのプロセスです。一般的にITサービス継続管理は、BCP(事業継続計画)の中に組み込まれます。

ITサービス継続性管理を行うことで、リスクを許容可能なレベルにまで低減させ、天災等が起きた際にも最小限の合意済みサービスレベルを実現することができるようになります。

行うこと

システムの冗長化や二重化によって信頼性を向上させるリスク低減と、復旧のためにデータセンターを分散させ、バックアップを確実に取得・管理するといった対策を行います。復旧対策で難しいのが「どこまでコストをかけるか」という問題ですが、対象のITサービスの停止が事業に与えるインパクトから、費用対効果を考えて決めていくのが一般的です。
ITILでは下記のように記載されています。

1.事業継続性計画(BCP)の策定

BCPは、中断したビジネスプロセスを回復するために必要な手順を定義した計画です。事業全体を対象としていますが、ビジネスはITサービスによって支えられているため、ITサービスの継続性管理計画がその中心となります。ITサービスの継続性管理計画は、BCPに沿って策定される必要があります。

2.ビジネス・インパクト分析(BIA)

ビジネスが中断したときに、各業務の停止がどのくらいの損失を生むのか、時間の経過ととともにビジネスへのインパクトがどのくらい変化するのかを理解するための分析です。この分析を行うことで、大規模災害など、すべてのITサービスを復旧させることが難しいケースは、ビジネスへのインパクトが大きい部分から優先的に復旧できるようになります。

3.リスク・アセスメント

事業目標の達成に影響をおよぼすITサービスが停止する可能性を特定し、その脅威(サービスの停止が発生する可能性の度合い)と脆弱性(脅威が発生したときに組織が影響を受ける度合い)を評価します。

4.リスク分析(RA)

リスク(不確実性)に対処するためには、「リスクの識別・評価」と「リスクコントロール」という2つのステップが必要です。リスク分析では、継続し対する潜在的な脅威、その脅威が現実になる可能性を識別・評価します。継続性の観点から、サービスの中断、不法侵入などのセキュリティ妨害が引き起こす可能性があるリスクを識別し、評価します。

5.リスク軽減手段の選択

リスク分析で洗い出されてリスクを軽減するための、コストに見合った計画を作成します。定期バックアップ取得、電源供給の中断に備えたUPS設置、セキュリティシステムの強化、日々の運用の見直しなどが考えられます。

6.復旧オプションの策定

ITILでは、ITサービスの中断から復旧するための戦略として、以下の方法が整理されています。

手作業のワークアラウンド

ITサービスが再開するまでの 2-3日間、一時的な措置として、ITを使わずに手作業でビジネスが回るようにする方法。例えば、POSが壊れた際に領収書を手書きするなど。

相互協定

類似の技術を使用する組織同士が合意し、非常時に助け合う方法。現在はシステムが複雑化しているため、助け合うのは簡単ではなく、またセキュリティ面などの別の考慮も必要になることから、適用できるケースは少なくなってきている。

段階的復旧(コールド・スタンバイ)

復旧用に「場所」だけを用意しておき、非常時には機器を持ち込んでシステムを再開する方法。再開するには「機器」を設置する時間が必要なため、迅速に復旧したい場合は適用できない。

中間的復旧(ウォーム・スタンバイ)

復旧用に「場所」と「機器」だけを用意しておき、非常時にはデータのバックアップから復旧することでシステムを再開する方法。再開するまでに、アプリケーションやデータをリストする時間が必要になる。

高速復旧(ホット・スタンバイ)

復旧用に「場所」と「機器」と「データ」だけを用意しておき、非常時にはデータの同期をとることでシステムを再開する方法。稼働中のシステムと待機中のシステムが定期的にデータの同期をとることで、速やかに復旧できる。

即時的復旧(ホット・スタンバイ)

復旧用に「場所」「機器」「データ」「サービス」を用意する。常にデータとシステムの同期がとれているバックアップセンタ(場所)を用意することで、非常時には即時にサービスを復旧できる。

ITサービス継続性管理の取り組み事例

ITサービス継続性管理の取り組み事例として、当社の例を取り上げてご紹介していきます。自社で取り組む際の参考になれば幸いです。

当社の事業(24時間365日のシステム運用サービスとクラウド構築サービス、クラウド型監視サービス)の継続性を担保するため、サービス提供基盤(監視システム、ナレッジ管理システム、コミュニケーション基盤)について、下記対策をとっています。

即時的復旧の実現

稼働環境とほぼ同じシステムを遠隔地に用意し、データの同期を行い、稼働環境が利用できない場合は遠隔地に置かれた環境にサービスを切り替える体制を整えています。

システムは稼働しているが運用オペレータが出社出来ない状況が発生した場合は、遠隔からのオペレーションによって平常時と変わらぬサービスをご提供出来るよう体制を整えています。

段階的復旧の実現

段階的復旧の実現に向けては、停止要因に応じて復旧までのステップを設計しています。停止が当社自身の保有する設備やソフトウェアに起因する場合、第三者の設備に起因する場合ともに24時間以内に復旧できる場合は、縮退での提供を前提に顧客へのアナウンスを行い緊急メンテナンスにより対応します。

仮に24時間以上必要となる場合は、遠隔地データセンタにシステムを立ち上げます。 システムの立ち上げに当たっては、稼働環境から定期的に遠隔地データセンタへ送信・保管しているバックアップデータを使用し起動させることになるため、およそ24時間から48時間の範囲で稼働環境を遠隔地データセンタ側へ切り替えます。

まとめ

今回は、運用体制を構築するための前提である「何を、どう管理するのか」の1つ、「ITサービス継続性管理プロセス」について、取り組み事例(当社の場合)も交えてご紹介しました。 ITサービス継続性管理を行うことで、リスクを許容可能なレベルにまで低減させ、天災等が起きた際にも、最小限の合意済みサービスレベルを実現することができるようになるでしょう。
災害が増えている昨今、BCP計画の必要性を感じている方も多いと思います。計画の一環として、IT継続性管理を自社の取り組みに取り入れてみてはいかがでしょうか。

次回は、「キャパシティ管理」についてお話しします。

運用設計のポイントを手っ取り早く把握したい方へ

クラウド運用課題を解決する「運用設計の考え方」「運用設計のフレームワーク」のポイントを手っ取り早く把握したい!という方は、以下のホワイトペーパー「運用設計が丸わかり!クラウド運用課題解決への4ステップ(運用設計ガイド)」もあわせてご参照ください。

「クラウド運用の課題と対応策」や「自社で運用設計する際の課題」、「運用設計と継続的な運用改善を継続させるポイント」も記載していますので、参考になさってください。

Free

資料ダウンロード

課題解決に役立つ詳しいサービス資料はこちら

資料ダウンロード
  • 運用設計が丸わかり!クラウド運用課題解決への4ステップ(運用設計ガイド)

    クラウド運用課題を解決する「運用設計の考え方」「運用設計のフレームワーク」のポイントを解説します。

Tag: 運用設計

関連記事

Contactお問い合わせ

お見積もり・ご相談など、お気軽にお問い合わせください。

single.php