BigQuery の自動メタデータ生成機能を試す(プレビュー版)
- 公開日
- カテゴリ:BigQuery
- タグ:BigQuery

2025 年 4 月 9 ~ 11 日に開催された Google Cloud Next '25 にて、BigQuery に関する新機能も多く発表されました。
その中の、BigQuery ナレッジ エンジン の機能の 1 つとして「自動メタデータ生成」があり、こちらが気になったため、現在はまだプレビュー提供ですが、利用してみました。
自動メタデータ生成(Automated Metadata Curation)
自動メタデータ生成は、BigQuery 上に保存されたデータに対して、テーブルやカラムごとの説明文を自動で作成してくれる機能です。データプロファイリングにより、分布や値の型、パターンといったデータの特性を把握し、それに基づいて生成AI(Gemini)が自然言語で説明を作成します。
この機能は、BigQuery に新たに追加された BigQuery ナレッジ エンジン 構想の一部として位置づけられています。
BigQuery ナレッジ エンジンは、BigQuery に蓄積された大量のデータを対象に、データに対する理解・文脈化・検索性の向上を目指す新しいアーキテクチャ/機能群です。
データそのものだけでなく、そのメタデータやインサイトを強化し、BigQuery をただのデータウェアハウスではなく、ナレッジベース(知識基盤) に進化させることを狙っています。
BigQuery ナレッジ エンジンは、以下のような要素から構成されています。
- BigQuery Data Insights
- データの分布、統計情報、異常値などをスキャンによって分析し、データの構造やパターンを可視化する機能群です。
- Automated Metadata Curation(自動メタデータ生成)
- Data Insights の結果を活用し、テーブルやカラムの説明文を自動で生成します。これにより、手間のかかるメタデータ管理作業を効率化し、データの発見性や利用しやすさを向上させます。
- Semantic Search(セマンティック検索)
- 従来のキーワード検索に加えて、生成されたメタデータやインサイトを活用し、意味に基づくデータ検索を可能にする機能です。
本記事ではこの中の、Automated Metadata Curation(自動メタデータ生成) を使ってみようというものです。
自動メタデータ生成の始め方
利用申請
2025 年 6 月 7 日現在、自動メタデータ生成機能はプレビュー提供中のため、一般提供されていません。利用には申請が必要です。使ってみたい場合は、以下の Google フォームから申請する必要があります。
BigQuery AI features Pre-GA Sign-up
フォームが組織向けになっていますが、個人でも申請できます。申請から数日待つとメールが来ます。受理されると、利用できるようになります。
インサイトスキャンを有効化する
プロジェクトでデータインサイトスキャンが有効になっていることを確認します。
以下のように、有効になっていなければ有効化します。
具体的には、以下を有効化することになります。
インサイトスキャン実行
インサイトスキャンを実行し、メタデータを付与してみます。
今回はサンプルテーブルとして、以下のカラムを持つ users テーブルへ、インサイトスキャンを実行してみます。
CREATE OR REPLACE TABLE `.blog_sample.users` (
user_id STRING NOT NULL, -- ユーザーの一意識別子
username STRING NOT NULL, -- ログイン時に使用するユーザー名
email STRING NOT NULL, -- ユーザーのメールアドレス
display_name STRING, -- 表示用の名前(ニックネーム)
profile_image_url STRING, -- プロフィール画像のURL
bio STRING, -- ユーザーの自己紹介文
location STRING, -- ユーザーの居住地・所在地
website_url STRING, -- ユーザーの個人サイトやポートフォリオURL
is_verified BOOLEAN DEFAULT FALSE, -- 認証済みユーザーかどうかの真偽値
is_active BOOLEAN DEFAULT TRUE, -- アカウントがアクティブかどうかの真偽値
follower_count INT64 DEFAULT 0, -- フォロワー数
following_count INT64 DEFAULT 0, -- フォロー中のユーザー数
created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP(), -- アカウント作成日時
updated_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP() -- 最終更新日時
);
なお、BigQuery 上に作成されているテーブルには、 description などのデータは記載していない状態です。
インサイトスキャンを実行します。
インサイトスキャンは少し時間がかかります。気長に待ちます。
生成されたメタデータを確認
スキャンが完了すると、インサイトタブで自動生成されたテーブルとカラムの説明を確認できます(この時点ではまだ適用はされていません。)
This table stores user account information for a blog platform. It includes details about user profiles and their activity on the platform. The table tracks when user accounts were created and last updated. It also contains information about user engagement and profile details.
このテーブルは、ブログプラットフォームのユーザーアカウント情報を保存しています。ユーザープロフィールとプラットフォーム上での活動に関する詳細が含まれています。このテーブルでは、ユーザーアカウントが作成された日時と最後に更新された日時を追跡しています。また、ユーザーエンゲージメントとプロフィールの詳細に関する情報も含まれています。
簡単な概要程度かと思いきや、結構詳細に作成してくれています。
各カラムの説明文も見てみます。
カラム名 | Gemini によって生成された説明 | 日本語訳 |
---|---|---|
user_id | Unique identifier for each user. | 各ユーザーの一意識別子 |
username | User's chosen username on the platform. | プラットフォーム上でユーザーが選択したユーザー名 |
User's email address. | ユーザーのメールアドレス | |
display_name | User's display name on the platform. | プラットフォーム上でのユーザーの表示名 |
profile_image_url | URL of the user's profile image. | ユーザーのプロフィール画像のURL |
bio | User's self-description or biography. | ユーザーの自己紹介文または経歴 |
location | User's self-reported location. | ユーザーが自己申告した所在地 |
website_url | URL of the user's personal website. | ユーザーの個人ウェブサイトのURL |
is_verified | Boolean value indicating whether the user's account is verified. | ユーザーアカウントが認証済みかどうかを示すブール値 |
is_active | Boolean value indicating whether the user account is currently active. | ユーザーアカウントが現在アクティブかどうかを示すブール値 |
follower_count | Number of followers the user has. | ユーザーのフォロワー数 |
following_count | Number of users the user is following. | ユーザーがフォローしているユーザー数 |
created_at | Timestamp indicating when the user account was created. | ユーザーアカウントが作成された日時を示すタイムスタンプ |
updated_at | Timestamp indicating when the user's profile was last updated. | ユーザーのプロフィールが最後に更新された日時を示すタイムスタンプ |
当初の想定と相違ない説明文が生成されていました。
メタデータ反映
生成されたテーブルの説明が OK なら、「詳細に保存」を押下すると反映されます。(保存前に、説明文を手動で編集することもできます)
同じく、生成されたカラムの説明が OK なら、「スキーマに保存」を押下すると反映されます。(保存前に、各カラムの説明文を手動で編集することもできます)
まとめ
メタデータの管理運用は、大切であると認識しつつも、なかなか手も目も行き届き切れない部分の一つでもあります。これらの生成を自動で行ってくれる機能はとても助かりますし未来を感じたため、いち早くプレビュー版に申し込み利用してみました。
BigQuery ナレッジ エンジンの一部として提供される自動メタデータ生成機能は、特にデータカタログの整備やデータ探索の効率化に大きく貢献できると感じました。正式リリース後も期待したい機能です。
生成 AI と連携したメタデータ管理が一般化していく中で、この機能は組織のデータ活用レベルを一段引き上げるポテンシャルを感じました。
一方で、現状ではテーブルの説明と各カラムの説明が英語で生成されていたため、ここを日本語で生成してくれると、人間としての管理上はとてもわかりやすいのでありがたいなと感じました。今後のアップデートに期待です。
メタデータが完全に管理されていれば、AI がテーブルやカラムを理解する助けになりますし、クエリを書かず AI と対話しながらデータ探索を行うことの精度(AIにそのデータを正しく認識してもらう)もより高まってくると思います。
分析用データの基盤も AI フレンドリーにして、どんどん組織内でのデータ民主化を進めていきたい。
今後も引き続き、関連情報をリサーチしていきます。
参考: