db tech showcase

dbtsブログ

このエントリーをはてなブックマークに追加

【dbts2024 レポート】「持続可能なデータ分析基盤」を構築するために、解決すべき課題

初心者向け 運用ノウハウ

こんにちは、プロダクト開発本部の小浦方です。
db tech showcase 2024 1日目のC10セッションである『「持続可能なデータ分析基盤」を構築するために、解決すべき課題』のレポートをお届けします。

セッション概要

データ利活用が進むと同時に、データ分析基盤に対する期待やニーズが大きくなります。

しかしながら、データ分析基盤の状態が不安定なままですと日々の運用に追われるどころかデータ利活用ニーズに追いつけず、データの品質は下がり、管理コストだけが増え続けてしまいます。その結果、データ利活用によって生まれる価値が限りなく小さなものになってしまうことも少なくありません。

このような結末を迎えないために「持続可能なデータ分析基盤」であることが重要だとINSIGHT LABは考えます。

本セッションでは、これまでのデータ分析基盤の構築・運用の経験をもとに、基盤の最適化と高品質なデータを素早く提供し続けるために必要だと考える要素をご紹介いたします。

スピーカー名:INSIGHT LAB株式会社
データサイエンス開発本部
本部長
平澤 雄基 様

概要

INSIGHT LAB株式会社のデータ分析基盤の構築・運用の経験をもとに、持続可能なデータ基盤を構築するための目標とアプローチについてご紹介いただきました。
目標としては、以下の7つが挙げられました:

  1. スケーラブルなシステムに
  2. エコシステムなアーキテクチャで
  3. 開発と運用を自動に
  4. 不要なものは残さない
  5. 連絡網を確立させる
  6. 責任範囲を明確に
  7. データの理解を深めよう

これらの目標が達成されることで、多様なニーズに応えられて品質の高いデータを利用者にすばやく提供できるようになり、「データ利活用の促進」、データ管理やデータ組織内のコミュニケーションにかかる「コストの削減」といった価値がもたらされます。

次に、それぞれの目標の詳細について述べられました。それらの中で、個人的に印象に残ったものをいくつかピックアップします。
4つ目の目標「不要なものは残さない」では、しばらく使われていないデータがないかを監視し、アウトプットに必要でない不要データは残すべきではないという話がありました。無駄なデータが多ければ多いほど、データ基盤のリカバリ対応や改修の際に、価値がでにくい部分へのコストが嵩むことになってしまいます。とにかくデータを貯めておくというようなデータレイクでありがちな考え方は、データ分析基盤の持続可能性においては適さないということでした。
5つ目の目標「連絡網を確立させる」では、データに関する確認先や所有者を明確にしておくことの重要性が述べられました。データ基盤は、データが生まれる上流からデータ利活用を行う下流まで幅広いシステムと人が関わっています。データに関する問い合わせは様々な場面で行われるため、連絡網が確立していないと多大なコストが発生してしまうとのことでした。
7つ目の目標「データの理解を深める」では、データのドメイン知識やビジネスロジックをアナリスト側が理解していない場合、データによる意思決定が誤ったものとなり、データが生む価値も半減してしまうことが述べられました。組織内のデータを一元管理してメタデータ(データの意味や生い立ち、構造など、データに関する情報)を元に検索や理解ができる「データカタログ」の活用が、データの理解を深めるために効果的であるとのことでした。

セッション内容まとめ

持続可能なデータ基盤を構築するために達成するべき7つの目標があり、それらを達成することで「データ利活用の促進」や「コストの削減」といった価値がもたらされます。7つの目標と、もたらされる価値は以下のように関係します:

  • データ利活用の促進
    • データ利用者の求めるデータをすばやく提供(3, 5)
    • データ品質は常に保たれ、データに対する信頼性が向上(3, 7)
    • 多用なデータニーズに応えられる(1, 2)
  • コストの削減
    • 業務過多になりがちなデータ基盤業務の最適化(3, 4)
    • 無駄のないデータ組織内のコミュニケーションの確立(5, 6)

聴講した感想

私はこれまでの仕事で、お客様のデータを分析する機会が何度もあり、また最近ではデータカタログ製品の開発にも一部携わっています。なので、実感を伴ってこのセッションを聴講することができました。データを分析する際に、データそのものから分かることには限界があります。より価値のある分析のためには、ドメイン知識やメタデータでデータの背景まで深く理解することが重要です。データに関する問い合わせの連絡網が確立していることや、メタデータが充実していることの重要性は、自分の経験からもとても頷けるものでした。自分も一部携わっているデータカタログの開発の際には、このセッションで述べられた7つの目標の達成にどのように寄与できるかといった視点を持つことで、よりよい製品作りに繋げることができそうだと感じました。

一覧に戻る