Azure Managed Service Column <Azure運用コラム>

Azure HDInsightとは?分散データ処理サービスについて解説

Category: 入門編

2021.11.10

ビックデータを活用する大規模な分散データ処理基盤の基礎知識と事例を紹介

従来、大量データを取り扱うためのシステムは分散データ処理基盤と呼ばれ、オンプレミス環境で構築されているため、システム構築と運用コストが大きな負担でした。

しかし近年では、インターネットアクセス回線やクラウド環境の技術が進化し、クラウドサービスとしてビックデータをリアルタイムに扱えるようになりました。このようにビックデータを有効活用するための分散データ処理基盤をクラウド環境で実現するのが「Azure HDInsight」です。

本記事では、Azure HDInsightの概要を理解するために必要なビックデータ・分散データ処理基盤の基礎知識を解説しながら、Azure HDInsightで何ができるのか、活用事例とともに紹介します。

1. Azure HDInsightを理解するための基礎知識

Azure HDInsightは、ビッグデータの処理に必要な分散データ処理基盤をクラウド上で利用できるサービスです。まずはAzure HDInsightを理解するための基礎知識を解説します。

1.1 ビックデータとは

ビッグデータとは「データの量(Volume)」「データの種類(Variety)」「データの発生頻度・更新頻度(Velocity)」の3つのVで構成されたデータ群を指します。データの種類は様々ですが、公開可能なオープンデータ、ノウハウなどのナレッジデータ、IoTのように多様なデバイスから発生するストリーミングデータ、個人情報のようなパーソナルデータの4種類に大別されます。多くのデータをもとに精度の高い予測・分析を行うことで有益な情報を得られるため、近年ではありとあらゆる場面で活用されています。

1.2 分散データ処理基盤とは

分散データ処理基盤とは、処理速度の向上とサーバー負荷軽減のために、1つの処理を分散して行う方式です。処理の負荷を分散する方法として1台のコンピューターに対し処理能力を向上させる「スケールアップ方式」と、大規模データ処理を複数のサーバーに分散させる「スケールアウト方式」の2種類があります。

スケールアウト方式では、1台のサーバーで処理するよりも処理速度が向上します。また、1台のサーバーが故障しても他のサーバーで代替させることが可能なでため、システム全体の可用性を担保できます。近年の分散データ処理基盤は、スケールアウト方式が主流です。

1.3 代表的なオープンソースであるHadoopとは

ビッグデータのような大量の情報を処理するために、分散データ処理基盤には複数のサーバーが必要です。しかし、この複数のサーバーを個別に設定を行うのは効率的ではありません。

そこで、この分散データ処理基盤を一つの機能として取りまとめる役割を果たすのが、Hadoopです。Hadoop制御下におかれたサーバー群は、あたかも一つの巨大なコンピューターであるかのように振る舞います。

HadoopはApacheプロジェクトの元で開発されたオープンソースのミドルウェアです。米国の大手IT関連企業により、現在も開発が続けられています。Hadoopそのものはデータを「貯める」「処理する」に特化した機能を持っています。開発の歴史が長いため、関連する機能が派生し、様々なツールが開発されています。

2. Azure HDInsightの概要

それでは、Azure HDInsightのサービスについて解説します。

2.1 Azure HDInsightとは

前章では、ビックデータを処理する分散データ処理基盤システムとして、オープンソースのHadoopを紹介しました。このHadoopは当初プログラム内部でUNIXコマンドが使用されていたこともあり、Linux環境のみで使われていました。Azure HDInsightは、このHadoopをWindows環境で稼働できるよう改修し、さらにAzure上でクラウドサービス化されたものです。

2.2 Azure HDInsightのメリット

Azure上で分散データ処理基盤システム(Hadoop)を利用する主なメリットを紹介します。

2.3 オンプレミス環境の設備投資が不要

従来ではHadoopを構築するために、複数の物理コンピューターをオンプレミス環境に準備する必要がありました。Azure HDInsightは、すべてクラウドコンピューティングで構築することが可能です。利用したい時にすぐに始めることができるため、設備にかかる初期投資が不要です。

2.4 運用負荷の削減

Azure HDInsightでは、データ処理に必要なリソースを自動的にプロビジョニングできます。従来のオンプレミス環境では、手動で調整する必要がありました。またAzure HDInsightでは、常に最新のコンポーネントが提供されるため、ソフトウェアアップデートのようなメンテナンスにかかる運用負荷の削減も可能です。

2.5 従量制課金によるコストの抑制

Azure HDInsightで発生する費用は、処理を実行した分だけの従量制課金です。利用が少ない時には分散データ処理基盤のクラスタを解除しておくなど、状況に合わせてAzureの運用コストを抑えることができます。利用する環境やコンポーネントによって料金が異なりますので、利用前には必ず公式サイトでご確認ください。

※1 参考:Azure HDInsightの価格

2.6 Microsoft製品との連携が可能

Azure HDInsight では、Excelとの連携が可能です。またExcel以外にも、Microsoft製品と連携できるアドオンが提供されています。これまで敷居の高かったビックデータの可視化をより身近なツールで分析することができるでしょう。

3. Azure HDInsightの事例

実際にAzure HDInsightはどのような場面で活用されているのでしょうか。代表的な事例を紹介します。

3.1 Webサイトから条件を指定したユニークユーザーのアクセス分析

某ショッピングサイトを運営する企業では、数万行のWebサイトアクセスログから「週3日以上来ているユニークユーザー数」「検索サイトからアクセスしているユニークユーザー数」といった条件でアクセス数を集計する事例があります。このように、ユニークユーザー数を出すような処理、過去ログのデータ分析、時間のかかるバッチ処理をAzure HDInsightで行い、自動的にExcelに出力することで、可視化されたユーザー分析を実現します。

3.2 スケールアップ方式からスケールアウト方式(分散データ処理)への切り替え

某金融関連の企業では、キャッシュレス化に伴うメインフレームのトランザクション負荷が高く、CPUを増強させるスケールアップ方式で対応していました。

課金システムのバッチ処理の負荷を下げるため、Azure HDInsightで分散データ処理基盤を構築し、サーバーの処理を分散処理に移行させ、全体の負荷を低減させた事例があります。Hadoopは並列の分散処理を得意としたシステムです。その強みを活かすことで大量のデータ処理を遅延なく実施することができました。

3.3 会員向けレコメンデーション機能に活用

会員向けのサイトでよく見る「この商品を見た人はこちらもチェックしています」のように、ユーザーの行動分析結果から購入情報の属性が近いものを分析し、レコメンデーションを表示させる事例もあります。

高い精度で相関関係を持った分析を行いたい場合、従来のデータベース形式のトランザクションでは大量のログを処理するのに時間がかかってしまいます。Hadoop環境を活用することで、より付加価値の高い情報をリアルタイムに提供することが可能です。

4. まとめ

本記事では、Azure HDInsightサービスについて、基礎知識、サービス概要、そしていくつかのユースケースを紹介しました。
Azure HDInsightの登場により、ビックデータや分散データ処理システムがより身近なものとなり、データサイエンティストや分析エンジニアと呼ばれる専門家でなくとも、簡単にデータ分析ができるようになっています。これからは、分析したデータをどう活用するかが重要な時代です。企業やサービスの価値を高めるためにも、Azure HDInsightの導入を検討してみてはいかがでしょうか。

Azure導入個別相談会(無料)

Tag: Azure HDInsight

Contactお問い合わせ

お見積もり・ご相談など、お気軽にお問い合わせください。

single.php