【Google Cloud】Dataplexのプロファイル機能を試してみた

【Google Cloud】Dataplexのプロファイル機能を試してみた

with コメントはまだありません
みなさま、こんにちは。Y.Yです。

今回は、Google Cloud(GCP)のDataplexについての記事です。
現在(本記事執筆時点)プレビューで公開されているプロファイル機能を使って、BigQueryテーブルの各列の統計情報(NULL値の割合や平均値など)を取得してみます!

プロファイル機能に興味のある方は是非ご覧ください!

事前設定

プロファイルを行うためには、Dataplexでレイク・ゾーン・アセットを作成する必要があります。
レイク・ゾーンは論理的なデータの集合です。データの種類や用途、アクセス制御などによるグループ分けに用います。
レイクの中にゾーンが含まれます。
アセットは、Cloud Storage または BigQueryのデータへのマッピングを定義します。
(用語 - 公式ドキュメント)

APIの有効化

レイクを作成するには、まず「Cloud Dataplex API」を有効にします。



レイクの作成

ConsoleのDataplex画面で、「レイクの管理」>「管理」を開き、「作成」ボタンで作成画面を開きます。
IDとリージョンを指定して、「作成」ボタンを押下します。




ゾーンの作成

上で作成したレイクの詳細画面を開き、「ゾーンを追加」を押下します。



ゾーンIDとタイプを指定し、ゾーンを作成します。




アセットの追加

上で作成したゾーンの詳細画面を開き、「アセットを追加」を押下します。



マッピングするデータの種類(BigQueryデータセット or Cloud Storageバケット)とデータ、及びアセットのIDを指定し、アセットを作成します。
(その他の項目はデフォルトのままにしました)


(作成完了)

プロファイルの作成

レイク・ゾーン・アセットの作成が完了したら、いよいよプロファイルを作成してみます。
「データプロファイルスキャンを作成する」を押下します。


IDとスキャンするテーブルを指定して、「作成」ボタンを押下します。
今回はその他の設定はデフォルトのままにしました。
(範囲は、データ全体 または インクリメンタル(タイムスタンプ列に基づく増分)のいずれかを選択できます)


※スキャンするテーブルは、先ほど作成したレイク・ゾーン・アセット(マッピングしているBigQueryデータセット)内のテーブルから選択できます。

プロファイルの確認

プロファイルの作成が完了したら、スキャンを実行して対象テーブルの情報を取得します。
作成したプロファイルの詳細画面を開き、「今すぐ実行」を押下します。


スキャンジョブが完了するとスキャン結果が表示されます。


数値データの列であれば、下の画像のように
・列名
・データ型
・NULL率
・ユニーク率
・平均、標準偏差、最大/最小、四分位数
・上位10個の値、及びそれらの割合と個数(個数は棒グラフにカーソルあてて表示)
を確認できました。


また、日付や文字型の列の場合は以下の情報が取得できました。
・列名
・データ型
・NULL率
・ユニーク率
・(文字列のみ)長さの最大/最小/平均
・上位10個の値、及びそれらの割合と個数(個数は棒グラフにカーソルあてて表示)

まとめ

今回は、Dataplexの新機能であるプロファイルを実際に使ってみました。
テーブルの各列に対して統計情報を取得できるのは、データの品質チェック(正しくデータが格納されているか、おかしなデータが紛れ込んでいないかなど)に役立ちそうですね。

皆さんも是非使ってみてください!

ご覧いただきありがとうございました。

当社、システムサポートは、Google Cloudの導入・移行・運営支援を行っています。
お問い合わせは以下よりお願いいたします。

関連記事

本記事はいかがでしたか?

Follow Y.Y:

株式会社システムサポート名古屋支社BI事業部所属。 2020年新卒入社で、2021年の末頃からGoogle Cloudを使い始めました。趣味はジャグリング。