Azure Managed Service Column <Azure運用コラム>

Azure Data Lakeとは?DWHとの違いと、Azure Data Lakeの構成と機能について解説

Category: 入門編

2022.07.04

データ分析サービスとは?企業のDXを支える技術について解説

DX(デジタル・トランスフォーメーション)を見据えてクラウドを利用する企業が増えています。企業が DX を推進する上でなくてはならない仕組みに、データ分析があります。データ分析を行う上で、データベースやデータウェアハウスなど、多くのデータを保存・管理する技術は多いですが、その中でも雑多な非構造化データを扱うデータレイクは特に重要な役割を担っています。

クラウド上でデータレイクを実現するために、Azure では、Azure Data Lake というサービスが用意されています。本記事では、企業の DX に必要なデータレイクの仕組みを踏まえ、Azure Data Lake の概要や構成、特徴とメリットについて解説します。

1. データレイクとは

DX を推進する企業が増えるにつれて、データレイクという言葉をよく耳にするようになりました。まず、データレイクの概要と目的、そして混同されやすいデータウェアハウスとの違いについて解説します。

データレイクとは

データレイクとは、膨大なビッグデータをそのまま(生データのまま)格納・蓄積できるストレージのことを指します。規則性を持った構造化データ、非構造化データを問わず、どのようなデータでも格納することができます。

特に、音声や動画、SNS のログ、センサーデータなどを含むあらゆる形式の非構造化データを、そのままの形式で貯めておけることが大きな特徴であり利点でもあります。

データレイクの目的と用途

データレイクはビッグデータの処理を目的として開発されています。構造化・非構造化を問わずどのようなデータでも格納することができるため、センサーデータや GPS データ、SNS のテキストなど、ビジネスを行う中で産み出される生データをそのままの形で保存・管理することができます。

テーブル構造に縛られるリレーショナルデータベース( RDBMS )では、このような非構造化データをそのまま取り扱うことが苦手ですが、データレイクなら、雑多な非構造化データを加工・変換することなく、そのままの形で扱うことができます。

データウェアハウス( DWH )との違い

データレイクは、よくデータウェアハウスと混同されます。データウェアハウス( DWH )とは、企業の意思決定を支援するための大規模なビジネスデータを保管した「データの保管庫」で、データレイクと同様に大量のデータを蓄積する仕組みです。

しかし、データウェアハウスは、非構造化データの扱いを得意とするデータレイクと違い、規則性を持った構造化データを収集し、目的別に定義された形に格納します。データウェアハウスで扱うデータは、データ分析業務で利用するために最適化されたデータ構造となっている必要があります。

2. Azure Data Lake とは

マイクロソフトが提供するクラウド、Microsoft Azure では、クラウドの利点を最大限に活用したデータレイクサービスを提供しています。ここでは、Azure Data Lake の概要と料金体系について解説します。

Azure Data Lake の概要

Azure Data Lake は、Azure が提供するデータレイクを実現するサービスです。データ格納領域の「Azure Data Lake Storage」と分析ツール「Azure Data Lake Analytics」、管理機能「Azure HDInsight」から構成されるサービスです。データレイクとしてさまざまな種類のデータを簡単に取り扱うことができ、Azure の持つ高い可用性とスケーラビリティを活かし、ペタバイト規模のファイルと数十億個のオブジェクトを保存して分析することが可能です。

Azure Data Lake の料金体系

Azure Data Lake の料金体系は、利用した分だけ支払う従量課金制となっています。下記の通り、Azure Data Lakeを構成する3つのサービス単位で料金が必要となります。

Azure Data Lake Storage

データ容量に応じた月額従量課金

Azure Data Lake の料金算出はこちらから

Azure Data Lake Analytics

分析ジョブ実行時間に応じた従量課金制

Azure Data Lake Analytics の料金算出はこちらから

Azure HDInsight

コンポーネントとインスタンスサイズの組み合わせによる、実行時間に応じた従量課金制

Azure HDInsight の料金算出はこちらから

3. Azure Data Lake の構成とメリット

Azure Data Lake は3つのサービスで構成されているとお伝えしましたが、それぞれのサービスにはどのような特徴やメリットがあるのでしょうか。最後に、Azure Data Lake を構成するサービスの概要と、Azure Data Lake のメリットについて解説します。

Azure Data Lakeの構成

Azure Data Lake は下記のサービスで構成されています。

Azure Data Lake Storage

Azure Data Lake Storage は、データレイクを構築するためのストレージサービスです。ビッグデータ分析用のスケーラブルで費用対効果の高いストレージサービスであり、Azure Blob Storage と既存の Azure Data Lake Storage Gen1 の機能を集約したものです。ペタバイト単位の膨大なエンタープライズ向けのビッグデータを蓄積・管理することができます。

Data Lake Analytics

Data Lake Analytics は、オープンソースのエンタープライズ向け分析サービスです。ペタバイト規模のデータに対して、超並列のデータ変換および処理プログラムを、U-SQL、R、Python、.NET で容易に開発および実行することができます。

Azure HDInsight

Azure HDInsight は、Azure クラウド上で動作する分散データ処理基盤です。フルマネージドの Apache Spark および Hadoop 上で、ビッグデータを分析に適した形式にするための分散処理を行うことができます。99.9% の SLA が保証されており、Spark、Hive、MapReduce、HBase、Storm、Kafka、R Server向けに最適化されています。

Azure Data Lakeの特徴とメリット

Azure Data Lake の特徴とメリットは下記の通りです。

ビッグデータプログラムの開発の簡略化

ビッグデータを操作するクエリを設計し実装することはテクニカルで難しい場合があります。Azure Data Lake では、Visual Studio、Eclipse、IntelliJ などさまざまな開発ツールと統合されているため、使い慣れているツールを使って簡単にコードを実行、デバッグ、調整することが可能です。

既存システムとのシームレスな統合

ビッグデータ活用の大きな課題の1つは、既存 IT 資産とどのように融合させるかという点です。Azure Data Lake は、Azure Synapse Analytics、Power BIData Factory と連携して、Azureクラウド上で、高度な分析に対応した包括的なプラットフォームを実現することが可能です。

また、仮想マシン上のAzure SQL Server、Azure SQL Database、Azure Synapse Analyticsなどのデータベースサービスと対応しており、すべてのデータに対応できます。

無限のスケールによりペタバイト規模のデータ保存が可能

Azure Data Lake のアーキテクチャは、クラウドの高い性能とスケーラビリティを享受するために最適化されています。Azure Data Lake Store では、スケーラビリティの制限を受けずに組織のデータすべてを単一の場所で分析することができます。Data Lake Store では数十億個のファイルを保存でき、サイズ上限は他のクラウドストアの200倍以上となっています。 1ペタバイトを超えるファイルも保存可能です。

エンタープライズグレードのセキュリティ

Azure Data Lake は、マイクロソフトにより完全に管理とサポートがされており、エンタープライズグレードの SLA と24時間365日対応のサポートが付属しています。データは、転送中は SSL を使用して、保存時には Azure Key Vault で HSM(暗号鍵管理システム)に保管された暗号鍵により、常に暗号化されます。

また、Azure Active Directory を通じて、シングル サインオン(SSO)や多要素認証などの機能も組み込むことが可能です。

4. まとめ

データレイクは企業の DX を支える技術です。企業がビジネスを遂行する中で産み出される大量のデータを一箇所にまとめ、多角的に分析を行うことで新しいサービスを産み出せる可能性が高まります。

Azure Data Lake は、Azure の高い可用性、スケーラビリティ、セキュリティを備えたデータレイクサービスです。新しいビジネスを産み出すために導入を検討してみてはいかがでしょうか。

Free

資料ダウンロード

課題解決に役立つ詳しいサービス資料はこちら

資料ダウンロード
  • Azure導入支援・構築・運用サービス総合カタログ

    Microsoft Azure サービスの導入検討・PoC、設計、構築、運用までを一貫してご支援いたします。
    Azure導入・運用時のよくあるお悩み、お悩みを解決するためのアールワークスのご支援内容・方法、ご支援例などをご確認いただけます。

Microsoft Azureを利用したシステムの設計・構築を代行します。お客様のご要件を実現する構成をご提案・実装いたします。

Azure導入個別相談会(無料)

Tag: Azure Data Lake ビッグデータ

Contactお問い合わせ

お見積もり・ご相談など、お気軽にお問い合わせください。

single.php