D7 HeteroDB
Big Data/Data Lake

PG-StromとApache Arrowで作るIoT/M2Mログデータ処理基盤 @ 海外 浩平

特にIoT/M2M領域で顕著ですが、時々刻々生成される大量データの処理に際して、データの検索・集計処理に要する時間と同じくらい、他所で生成されたデータのインポートというのも大きな問題です。
ビッグデータ処理の領域では列形式の構造化データApache Arrowの利用が進んでいますが、PostgreSQLにおいても、PG-StromのArrow対応機能であるArrow_Fdwを介してこれを読み書きする事ができます。つまり言い換えれば、Apache Arrowを介してデータ交換を行う事により、大量データをデータベースにインポートする事なく、即、検索・集計処理を実行できるようになるのです。
本セッションでは、Apache Arrowを特徴とPostgreSQLからの利用、GPU処理を含む高速化技術について説明すると共に、センサデータの検索・集計処理の実例として、国立天文台様と共同で実証実験を行ったPG-Strom+Arrow_Fdwによる観測データ検索・集計高速化の検証事例についてご紹介します。
kaigai_profile.jpg
海外 浩平
HeteroDB