dbtsブログ

2021年3月30日

【dbts2020セッションレポート】アジャイルなデータウェアハウスとは?

DB(データ管理)

こんにちは！インサイトテクノロジーマーケティング本部の周です。

db tech showcase ONLINE 2020で登壇された弊社石川のセッション「アジャイルなデータウェアハウスとは?―DevOpsに追従可能なデータ分析基盤の作り⽅」を視聴しましたので、一部セッション内容を含め、感想をレポートさせていただきたいと思います。

どの企業でもデータ分析が必要になった現在の時代では、データ分析基盤の重要性はますます増加しています。しかし、常に変化しつつある分析方法や増加していく大量なデータに対応できるアジリティを持つデータ分析基盤はなかなか構築できていません。本セッションはDataOpsやデータウェアハウス(以下：DWH)の概念や仕組みを解説しながら、アジャイルなDWHとは何なのかを解説しました。1人の技術者として講師の石川が自分なりの考察も示しています。

本セッションを視聴することで、DataOpsの概念を理解し、それぞれ異なるタイプのDWHアーキテクチャの特徴と相違点が理解できます。ベストプラクティスとなるData Vaultアーキテクチャがなぜ広く採用されていないかを理解し、それを改善するためのソリューションが如何に必要なのかが納得できるようになります。

DataOpsとは

DevOpsが開発側と運⽤側をフィードバックループで結んで開発を進める方法に対して、DataOpsは、データソースとデータ利⽤者の間にフィードバックしながらデータ分析を実現するものと定義しています。アプリケーション開発であってもデータ分析であっても、難しいとされてきた部門間の連携によって継続的かつ迅速なプロセスを推進することがDevOpsとDataOpsの目的と言えます。

また、DataOpsの仕組みをより分かりやすく説明するためのDataOps Pipelineを下記のような図で提示されています。このような一連のステップによってデータの品質とガバナンスを保ちながら、データソースとデータ利⽤者の間のワークフローを⾃動化します。

3つのDWHアーキテクチャのモデル

本セッションでは、「DWHの父」と呼ばれるビル・インモンのインモンモデル、「DWHの伝道師」であるラルフ・キンボールのキンボールモデル、およびダン・リンステッドのData Vaultモデル、といった3つのDWHのアーキテクチャを解説しています。

これまでのモデルに対する考察の中、インモンモデルとキンボールモデルの両方の特長を持つハイブリッド・アーキテクチャが⼀番現実的だと述べていますが、ビッグデータやアジャイルなどの最近のトレンドに対応するには厳しのではないかとの意見もありました。そこで登場したのはData Vaultモデルですが、クエリのパフォーマンス問題、膨大なテーブル数、複雑な構造における⼿動コーディングでの厳しさなどのデメリットもあげられます。しかし、最近ではクラウドDWHへの移行やメタデータ駆動形のコード⽣成ツールなどの手段を通じて、これらの問題を改善できないわけではありません。

そこで紹介されたのは、弊社が提供しているQlik ReplicateとQlik Compose for Data Warehousesといった製品です。この2製品はData Vaultモデルを採用し、組み合わせて使用することで従来の手動構築によるDWHのパイプラインを自動化します。ベストプラクティスでステップを踏んでいくことで、リアルタイムデータ連携〜マート作成までの作業を簡単に実施することが可能になります。

本セッションでは、DWHの全体像を知りたい方や自社におけるDWHの構築に課題を感じる方に対しては役に立つ内容を含まれていると思います。ここでは展開できていない内容はまだたくさんあるので、興味がございましたら下記「関連セッション」のリンクよりアーカイブ動画および講演資料を見てください。

一覧に戻る