集成 BigQuery API

BigQuery API 允许开发人员利用 BigQuery 的处理能力和 Google SQL 数据操作功能来执行重复性任务。

BigQuery API 是一个 REST API,支持以下语言 −

由于 Python 是数据科学和数据分析领域最流行的语言之一,本章将在 Python 环境中探索 BigQuery API。

BigQuery API 部署选项

就像开发人员无法直接从 BigQuery Studio 部署 SQL 一样,对于生产工作流,访问 BigQuery API 的代码必须通过相关的 GCP 产品进行部署。

部署选项包括 −

  • Cloud Run
  • Cloud Functions
  • Virtual Machines
  • Cloud Composer (Airflow)

BigQuery API 需要身份验证

使用 BigQuery API 需要身份验证 −

  • 如果在本地运行脚本,则可以下载与运行 BigQuery 的服务帐户关联的凭据文件,然后将该文件设置为环境变量。
  • 如果在连接到云的环境中运行 BigQuery,例如在 Vertex AI 笔记本中,则会自动进行身份验证。

为了避免下载文件,GCP 还支持大多数应用程序的 Oauth2 身份验证 流程。

经过身份验证后,典型的 BigQuery API 用例包括 −

  • 运行包含给定 CRUD 操作的 SQL 脚本表。
  • 检索项目或数据集元数据以创建监控框架。
  • 运行 SQL 查询以使用来自其他来源的数据合成或丰富 BigQuery 数据。

".query()"方法

毫无疑问,最流行的 BigQuery API 方法之一是".query() 方法"。与 Pandas 的 .to_dataframe() 搭配使用时,它提供了一个强大的选项,用于以可读形式查询和显示数据。

query () 方法 /

此查询应获取以下 输出

query () 方法 /

BigQuery API 不是黑匣子。除了日志记录(使用 Google Cloud Logging 客户端)之外,开发人员还可以在 UI 中查看按个人用户和项目级别细分的实时作业信息。要解决任何失败的作业问题,这应该是您的第一站。