
事前設定
リネージ機能を使うためには、「Data Lineage API」と「Data Catalog API」を有効にする必要があります。
まだ有効にしていない場合は「リネージ」タブを開くと以下のメッセージが表示されますので、「必要なAPIの有効化」を押下します。
有効になると、リネージが表示できるようになります。
それでは、実際にデータの流れを作ってリネージを確認してみます!
まだ有効にしていない場合は「リネージ」タブを開くと以下のメッセージが表示されますので、「必要なAPIの有効化」を押下します。

有効になると、リネージが表示できるようになります。

それでは、実際にデータの流れを作ってリネージを確認してみます!
リネージ機能の検証
【1】ロード処理 / ユニオン処理
- サンプルテーブルを2つ作成(order_shopA, order_shopB)
- Cloud Storageに格納したファイルからテーブルにデータをロードする
- 2つのテーブルをユニオンして新しいテーブル(orders)を作る
リネージを確認すると以下のように表示されます。

また、各要素をクリックすると詳細情報が表示されます。
(データであれば格納先の情報、処理であればジョブIDや実行されたクエリなど)
図の①の部分をクリックします。


ここで、ユニオンに使ったテーブルのリネージも見てみます。

【2】ビューの作成
リネージは以下のように表示されます。

また、取得元テーブルの「+」を押下すると、取得元テーブルのデータがどこから来たのかを確認することもできます。

【3】Insert処理 / Merge処理
リネージは以下のように表示されます。

オレンジのマークをクリックすると、実行SQLを確認できます。

まとめ
今回は、BigQueryのデータリネージを確認してみました。
この機能で、
ETL処理で不正データが紛れ込んでエラーになったときなどに、「どこからどのように来たデータなの?」を視覚的に追えるのは便利そうですね。
多数のデータが絡み合うようなシステムでは、効果をより発揮しそうです。
皆さんも是非リネージ機能を試してみてくださいね!
ご覧いただきありがとうございました。
【参考】※Google Cloud公式ドキュメント
・BigQuery テーブルコピー ジョブのデータリネージを追跡する
・データリネージについて
・Data Catalog を操作する
当社、システムサポートは、Google Cloudの導入・移行・運営支援を行っています。
お問い合わせは以下よりお願いいたします。
Google Cloud導入についてのお問い合わせはこちら
この機能で、
- ・どこから来たデータなのか
- ・どこにデータが流れていったのか
- ・どんな処理でデータが流れたのか
ETL処理で不正データが紛れ込んでエラーになったときなどに、「どこからどのように来たデータなの?」を視覚的に追えるのは便利そうですね。
多数のデータが絡み合うようなシステムでは、効果をより発揮しそうです。
皆さんも是非リネージ機能を試してみてくださいね!
ご覧いただきありがとうございました。
【参考】※Google Cloud公式ドキュメント
・BigQuery テーブルコピー ジョブのデータリネージを追跡する
・データリネージについて
・Data Catalog を操作する
当社、システムサポートは、Google Cloudの導入・移行・運営支援を行っています。
お問い合わせは以下よりお願いいたします。
Google Cloud導入についてのお問い合わせはこちら