データウェアハウスアーキテクチャ:知っておくべきことすべて
公開: 2020-04-30このデータ中心の世界では、遅かれ早かれ、私たち一人一人が1秒あたり1.7MBのデータを生成することは当然のことです。 しかし、このすべてのデータはどこに行きますか? このすべての情報を安全に保管して、必要なときに復活できるようにするためのストレージユニットがあるべきではありませんか?
そのようなストレージユニットがあると言ったらどうしますか? 当然のことながら、これはデータウェアハウスと呼ばれます。 これは、意思決定とレポート作成を支援するために構築された、運用ソースからのデータと情報を含む分析ツールです。
今日、世界のデータウェアハウス市場は、今後数年間で16%のCAGRで成長すると予想される程度まで上昇しています。
それでは、データウェアハウスとそのアーキテクチャについて深く掘り下げてみましょう。
詳細:データウェアハウジングとデータマイニングの概要
目次
データウェアハウスとは何ですか?
1つ以上のソースからの過去および可換データをすべて保管する場所は、データウェアハウスと呼ばれます。 データウェアハウスを持つ主な目的は、ビジネスインテリジェンスとビジネスのレポートプロセスをスムーズにすることです。 基本的に、格納されているデータに対してクエリと分析を実行します。
データウェアハウスには複数のソースからのトランザクションデータがあるため、企業は次のことを行うのに役立ちます。
- 古い記録を保存する
- 既存のデータを評価し、運用の抜け穴を特定します
データウェアハウスを設計するためのビジネス分析フレームワーク
通常、データアナリストは、ウェアハウスから関連データを収集して分析し、ビジネスの運用改善に役立てます。 データウェアハウスを使用すると、データにすばやく効率的にアクセスできるため、全体的な生産性が向上するため便利です。
さらに、顧客とすべての製品を包括的に見ることができます。 このようにして、スムーズな顧客関係を確保できます。
しかし、これをすべて実現するには、データアナリストは最初にビジネスニーズを理解する必要があります。 そしてこのために、彼らはビジネス分析フレームワークを作成する必要があります。
ビジネス分析フレームワークが構築されて初めて、データウェアハウスの設計に進むことができます。 これには3つの見方があります。
- トップダウンビュー:このビューでは、倉庫の設計に必要な関連情報を確認できます。
- データソースビュー:キャプチャ、保存、および管理されるデータを表示します。
- データウェアハウスビュー:ファクトテーブルとディメンションテーブル、およびウェアハウス内のデータが一覧表示されます。
- ビジネスクエリビュー:これでは、エンドユーザーの観点からデータを表示できます。
これらすべての観点からデータを確認したら、次に3種類のデータウェアハウスアーキテクチャについて学習します。
3種類のデータウェアハウスアーキテクチャ
企業のデータウェアハウスの設計を計画するたびに、データウェアハウスを構築するためのロードマップと、次の3つのアーキテクチャ層を検討できます。
- シングルティア:これは主に、データのクローズパケットセットを生成し、その全体的なボリュームを削減する役割を果たします。 ただし、このタイプは、複雑なデータと複数のデータストリームを持つ企業にはお勧めしません。
- 2層:このタイプのアーキテクチャでは、データソースが分割されるため、データの編成とストレージのプロセスがより効率的になります。
- 3層:このタイプのウェアハウスアーキテクチャは、生データから非常に価値のある洞察を提供し、データの組織化されたフローを生成するため、最も好ましい種類です。
これは、次の3つの層で構成されています。
- ウェアハウスのサーバーを含む最下層。 ここでは、バックエンドツールを使用してデータがクレンジングおよびロードされます。
- 中間層はOLAPサーバーで構成されています。 このレイヤーは、エンドユーザーとデータベース間の接続として機能するデータベースの抽象化されたビューをユーザーに提供します。
- 最上位層には、ウェアハウスからデータを抽出するためのAPIとツール(クエリ、データマイニング、分析、およびレポートツール)があります。
データウェアハウスアーキテクチャのコンポーネント
アーキテクチャの機能を管理しやすくするために、ウェアハウスには5つの主要コンポーネントに囲まれたRDBMSサーバーが含まれています。
データウェアハウスアーキテクチャの5つの主要コンポーネントは次のとおりです。
データウェアハウスデータベース
ウェアハウスアーキテクチャの中心的な部分は、レポートで理解できるようにするすべてのビジネス情報を含むデータバンクです。 明らかに、これは、データをウェアハウスに格納するために使用するデータベースの種類を選択する必要があることを意味します。
次に来るのは、利用できる4つのデータベースタイプです。
- リレーショナルデータベースは、一般的に遭遇するか、毎日使用する行ベースのデータベースです。 これらには、Microsoft SQL Server、SAP、Oracle、およびIBMDB2が含まれます。
- 分析データベースは、分析をサポートおよび監視するための情報の備蓄のために決定的に作成されます。 たとえば、TeradataとGreenplumです。
- データウェアハウスアプリケーションは、実際には一種の容量データベースではありません。 これらは、SAP Hana、Oracle Exadata、IBMNetezzaなどのデータ管理用のソフトウェアを提供するアプリケーションです。
- クラウドベースのデータベースは、データウェアハウスをセットアップするためにハードウェアを取得する必要がないことを目的として、クラウド上で促進および回復できるデータベースです。 たとえば、Amazon Redshift、Microsoft Azure SQL、GoogleBigQueryなどです。
データサイエンスについて詳しく知りたい場合は、一流大学のデータサイエンストレーニングをご覧ください。
抽出、変換、および読み込みツール(ETL)
ETL装置は、データウェアハウスアーキテクチャの基本です。 これらは、さまざまなソースから情報を分離し、それを合理的な配置に変更し、倉庫に積み重ねるのに役立ちます。
選択するETLツールが決定します。
- 情報抽出にかかる時間
- データを抽出する方法
- 適用された変更の種類とそのようにするために必要な労力
- 最終製品分析を改善するための情報検証とクレンジングのビジネスルール定義
- 失われた情報を埋める
- キーセーフからBIアプリケーションへのデータ循環のプロット
メタデータ
メタデータはデータウェアハウスを表し、情報のシステムを提供します。 これは、倉庫の開発、保護、取り扱い、および利用に役立ちます。 これには2つのタイプがあります。
- 技術メタデータ:倉庫の開発および組織化タスクを実行するときにエンジニアおよびマネージャーが利用できるデータが含まれています。
- ビジネスメタデータ:ウェアハウス内のデータの効果的に正当なスタンスを提供するデータが含まれます。
メタデータは、組織がウェアハウスに存在するデータを理解し、それを使用可能な情報に変換するための重要な役割を担っています。
データウェアハウスアクセスツール
データウェアハウスは、データベースまたはデータベースのグループを施設として使用します。 ほとんどの場合、企業はデータベースを合法的に扱うことができません。 これが、次のようないくつかのツールを使用する理由です。
- クエリおよびレポートツール:これらは、ユーザーがスプレッドシート、計算、またはインテリジェントビジュアルで企業レポートを作成して詳細な分析を行うのに役立ちます。
- OLAPデバイス:これらは、多次元データウェアハウスを開発し、さまざまな観点からビッグデータの分析を行うのに役立ちます。
- データマイニングツール:これらは、統計モデリング戦略を利用して、膨大な量のデータ内のクラスターと接続を認識する方法を体系化します。 データマイニング技術の詳細をご覧ください。
- アプリケーション開発ツール:これらは、カスタムフィットのレポートを作成し、特定のレポート目的で期待される翻訳で提示するのに役立ちます。
データウェアハウスバス
これは、ウェアハウス内のデータの進行を決定するのに役立ちます。 このフローは、インフロー、アップフロー、ダウンフロー、アウトフロー、およびメタフローとして配置できます。
データバスを設計する際には、データマート全体の一般的な測定値や事実について考える必要があります。

データマート
これは、ユーザーに情報を提供するために利用される入口レイヤーです。 作成にかかる時間と費用が少ないため、巨大なデータウェアハウスの可能性として紹介されています。 いずれにせよ、データマートは個人によって異なるため、標準的な意味はありません。
簡単に言うと、データマートはデータウェアハウスの補助であり、特定のユーザーグループ向けに作成された情報のセグメント化に使用されます。
データウェアハウスアーキテクチャのレイヤー
データウェアハウスの構築は、主に特定のビジネスに依存しています。 したがって、各アーキテクチャには4つの層があります。 以下で詳しく調べてみましょう。
データソースレイヤー
データソースレイヤーは、さまざまな内部ソースと外部ソースから収集された固有の情報がソーシャルデータベースに存在する場所です。 以下は、データソースレイヤーの例です。
- 運用データ—製品情報、在庫情報、マーケティング情報、またはHR情報
- ソーシャルメディアデータ— Webサイトのヒット、コンテンツの名声、連絡先ページの完成
- 部外者データ—人口統計情報、調査情報、統計情報
ほとんどのデータウェアハウスは組織化されたデータを管理しますが、音声アカウント、スキャンされた画像、非構造化テキストなどの非構造化データソースの将来の利用についても考慮する必要があります。 これらの大量のデータは重要な情報の保管場所であり、倉庫を構築するときに表示する必要があります。
データステージングレイヤー
この層は、情報ソースとデータウェアハウスの間にあります。 このレイヤーでは、情報はさまざまな内部および外部のデータソースから分離されます。 ソースデータはさまざまな組織で提供されるため、データ抽出レイヤーは多数のテクノロジーとデバイスを使用して必要な情報を抽出します。
抽出されたデータがスタックされると、高レベルの品質チェックにさらされます。 最終的な結果は、データウェアハウスにスタックする完全で整理されたデータになります。 ステージングレイヤーには、指定されたパーツが含まれています。
- ランディングデータベースとステージングエリア
ランディングデータベースには、データソースから復元された情報が保存されます。 データがウェアハウスに送られる前に、ステージングプロセスはデータに対して厳格な品質チェックを行います。 配置は、アーキテクチャの基本的なステップです。 不十分な情報は不十分なデータになり、その結果、ビジネスのダイナミクスが低下します。 アレンジメントレイヤーは、非構造化情報ソースを処理するために、ビジネスプロセスに従って変更を加える必要がある場所です。
- データ統合ツール
抽出、変換、および読み込みツール(ETL)は、ソースフレームワークから情報を抽出し、情報を変更および準備して、ウェアハウスに読み込むために使用されるデータツールです。
読む:インドのデータサイエンティスト給与
データストレージレイヤー
このレイヤーは、アレンジゾーンで洗い流されたデータが単独の中央アーカイブとして保管される場所です。 ビジネスとウェアハウスアーキテクチャの必要性に応じて、データストレージは、データウェアハウスセンター、データマート(特定の部門向けにいくらか再作成されたデータウェアハウス)、またはオペレーショナルデータストア(ODS)の場合があります。
データプレゼンテーション層
これは、ユーザーがスクラブおよびソートされたデータと通信する場所です。 データアーキテクチャのこのレイヤーにより、ユーザーは、アイテムまたはサービスの洞察を得るためにデータをクエリし、データを分解して理論的なビジネス状況を実行し、コンピューター化されたレポートまたは特別に指定されたレポートを作成できます。
わかりやすいグラフィカルユーザーインターフェイス(GUI)を備えたOLAPまたはレポート作成ツールを利用して、ユーザーがクエリを作成したり、分析を実行したり、レポートを計画したりするのを支援できます。
データウェアハウスの特徴
データウェアハウスは、サブジェクト指向、不揮発性、時変、および統合されたデータセットであり、組織の迅速かつ効率的な意思決定プロセスを可能にします。
- 主題指向:データウェアハウスを利用して、特定の知識の分野を調べることができます。 たとえば、「販売」は特定の主題にすることができます。
- 統合:データウェアハウスには、さまざまなソースからの情報が組み込まれています。 たとえば、ソースAとソースBにはアイテムを区別するためのさまざまな方法がありますが、倉庫では、アイテムを認識するための単独の方法があります。
- 時変:倉庫には履歴データが含まれています。 たとえば、データウェアハウスから3か月、半年、1年、またはかなり古い情報から情報を回復できます。 これは、最新の情報のみが保存されるトランザクションフレームワークとは異なって表示されます。 たとえば、トランザクションフレームワークはクライアントの最新の場所を保持できますが、データウェアハウスはクライアントに関連するすべての場所を保持できます。
- Non-Volatile :データウェアハウスの最も優れた特徴の1つは、データが格納されると、データが変更されることは不可能であるということです。 したがって、倉庫に記録された情報が変更されることはありません。
データウェアハウスアーキテクチャの使用方法は?
ビジネスまたは企業が必要とするデータベースの種類と、それとどのようにコラボレーションするかを構築することは、洞察を探す際に重要です。 同様に、データウェアハウスの設計を検討する際に、誰が情報を検査し、どのソースが必要かを評価することも重要です。
データウェアハウスとデータマートのバンターは、小規模な組織には常に関係があるわけではありませんが、より多くのグループ、部門、および明示的なニーズを持つ組織は、データマートによって利益を得る可能性があります。 データマートの特定の主題に位置する性質は、それをデータウェアハウスアーキテクチャの重要な部分にします。
さらに、組織の規模に応じて、さまざまな種類の倉庫設計がますます実用的になる可能性があります。 どちらが最適かを理解するには、データ、セットのサイズ、およびビジネスニーズに依存します。
結論
データウェアハウスは、単一またはさまざまなソースからの本物の可換情報を含むデータサイエンスフレームワークです。 これは、新旧のデータにアクセスし、そこから洞察を得て、現在のデータを分析することでビジネスプロセスを改善するための優れた方法です。
さらに、データウェアハウジングの概念は、協会の進行中の活動ではなく、主題に関するデータを提供するため、主題指向です。 倉庫では、組み込みは、さまざまなデータベースからのすべての比較可能なデータの典型的な測定単位の基礎を意味します。 前述のように、さらに不揮発性であるため、新しい情報が入力されても過去の情報は削除されません。
データウェアハウスの時間変動特性により、現実的なユーザビリティの高い時間枠が可能になります。
データウェアハウスには5つの基本的な部分があります。 1)データベース2)ETLツール3)メタデータ4)クエリツール5)DataMarts
クエリツールの4つの基本的なクラスは、クエリおよびレポートツール、アプリケーション開発ツール、データマイニング装置、およびOLAPツールです。
情報の調達、変更、および再配置のツールは、すべての変換とアウトラインを実行するために使用されます。
データウェアハウスアーキテクチャでは、メタタグは、データウェアハウス内のデータのソース、使用法、品質、およびハイライトを示すため、重要な役割を果たします。
この記事の情報が、データウェアハウスアーキテクチャの基本を理解するのに役立つことを願っています。 詳細については、upGradの専門家にご連絡ください。 メールをお送りください。折り返しご連絡いたします。
データサイエンスについて知りたい場合は、IIIT-B&upGradのデータサイエンスのエグゼクティブPGプログラムをチェックしてください。これは、働く専門家向けに作成され、10以上のケーススタディとプロジェクト、実践的なハンズオンワークショップ、業界の専門家とのメンターシップを提供します。1業界のメンターとの1対1、400時間以上の学習、トップ企業との仕事の支援。
データウェアハウスのアーキテクチャは何ですか?
データ通信処理のアーキテクチャ全体と、エンドクライアントに存在するプレゼンテーションを定義する方法は、データウェアハウスアーキテクチャです。 すべてのデータウェアハウスは異なり、それぞれが標準の重要なコンポーネントに基づいて特徴付けられています。
簡単に言うと、データウェアハウスは、単一または複数のソースからの可換データと履歴データで構成される情報システムです。 組織内のデータのレポートと分析のプロセスは、さまざまなデータウェアハウジングの概念の助けを借りて簡素化されています。 データウェアハウスアーキテクチャを構築するには、さまざまなアプローチがあります。 組織の要件に基づいて、任意のアプローチが使用されます。
データウェアハウスアーキテクトは平均していくら稼ぎますか?
データウェアハウスアーキテクトは、優れた給与パッケージを期待できる非常に需要の高い職務です。 平均して、データウェアハウスアーキテクトの給与はRsです。 年間13,00,000。 あなたがこの分野であなたのキャリアを始めているとしても、あなたはルピーのエントリーレベルの給料を期待することができます。 年間10,00,000。 より多くの経験を積み、はしごを上に移動すると、給与はRsまで変動する可能性があります。 年間22,00,000。
間違いなく、給与パッケージは、参加している会社、経験レベル、そして最も重要な地理的な場所によっても異なります。
データウェアハウスアーキテクチャの正しいフローは何ですか?
すべての運用データベースには、適用する必要のある特定の固定数の運用があります。 適切なソリューションを提供するためのさまざまな明確な手法があります。 データウェアハウスアーキテクチャの正しいフローが完全に守られている場合、データウェアハウスはより効果的であることがわかります。
データウェアハウスに寄与する4つの異なるプロセスは、データの抽出とロード、データのクリーニングと変換、データのバックアップとアーカイブ、および適切なデータソースにデータを送信することによるクエリ管理プロセスの実行です。