2023年5月10日

【Google Cloud】Dataplexのプロファイル機能を試してみた


Content
みなさま、こんにちは。Y.Yです。

今回は、Google Cloud(GCP)のDataplexについての記事です。
現在(本記事執筆時点)プレビューで公開されているプロファイル機能を使って、BigQueryテーブルの各列の統計情報(NULL値の割合や平均値など)を取得してみます!

プロファイル機能に興味のある方は是非ご覧ください!

事前設定

プロファイルを行うためには、Dataplexでレイク・ゾーン・アセットを作成する必要があります。
レイク・ゾーンは論理的なデータの集合です。データの種類や用途、アクセス制御などによるグループ分けに用います。
レイクの中にゾーンが含まれます。
アセットは、Cloud Storage または BigQueryのデータへのマッピングを定義します。
(用語 – 公式ドキュメント)

APIの有効化

レイクを作成するには、まず「Cloud Dataplex API」を有効にします。

レイクの作成

ConsoleのDataplex画面で、「レイクの管理」>「管理」を開き、「作成」ボタンで作成画面を開きます。
IDとリージョンを指定して、「作成」ボタンを押下します。

ゾーンの作成

上で作成したレイクの詳細画面を開き、「ゾーンを追加」を押下します。

ゾーンIDとタイプを指定し、ゾーンを作成します。

アセットの追加

上で作成したゾーンの詳細画面を開き、「アセットを追加」を押下します。

マッピングするデータの種類(BigQueryデータセット or Cloud Storageバケット)とデータ、及びアセットのIDを指定し、アセットを作成します。
(その他の項目はデフォルトのままにしました)

(作成完了)

プロファイルの作成

レイク・ゾーン・アセットの作成が完了したら、いよいよプロファイルを作成してみます。
「データプロファイルスキャンを作成する」を押下します。

IDとスキャンするテーブルを指定して、「作成」ボタンを押下します。
今回はその他の設定はデフォルトのままにしました。
(範囲は、データ全体 または インクリメンタル(タイムスタンプ列に基づく増分)のいずれかを選択できます)

※スキャンするテーブルは、先ほど作成したレイク・ゾーン・アセット(マッピングしているBigQueryデータセット)内のテーブルから選択できます。

プロファイルの確認

プロファイルの作成が完了したら、スキャンを実行して対象テーブルの情報を取得します。
作成したプロファイルの詳細画面を開き、「今すぐ実行」を押下します。

スキャンジョブが完了するとスキャン結果が表示されます。

数値データの列であれば、下の画像のように
・列名
・データ型
・NULL率
・ユニーク率
・平均、標準偏差、最大/最小、四分位数
・上位10個の値、及びそれらの割合と個数(個数は棒グラフにカーソルあてて表示)
を確認できました。

また、日付や文字型の列の場合は以下の情報が取得できました。
・列名
・データ型
・NULL率
・ユニーク率
・(文字列のみ)長さの最大/最小/平均
・上位10個の値、及びそれらの割合と個数(個数は棒グラフにカーソルあてて表示)

まとめ

今回は、Dataplexの新機能であるプロファイルを実際に使ってみました。
テーブルの各列に対して統計情報を取得できるのは、データの品質チェック(正しくデータが格納されているか、おかしなデータが紛れ込んでいないかなど)に役立ちそうですね。

皆さんも是非使ってみてください!

ご覧いただきありがとうございました。

当社、システムサポートは、Google Cloudの導入・移行・運営支援を行っています。
お問い合わせは以下よりお願いいたします。

Google Cloud導入についてのお問い合わせはこちら

2023年5月10日 【Google Cloud】Dataplexのプロファイル機能を試してみた

Category Google Cloud

ご意見・ご相談・料金のお見積もりなど、
お気軽にお問い合わせください。

お問い合わせはこちら