集成 BigQuery API
BigQuery API 允许开发人员利用 BigQuery 的处理能力和 Google SQL 数据操作功能来执行重复性任务。
BigQuery API 是一个 REST API,支持以下语言 −
由于 Python 是数据科学和数据分析领域最流行的语言之一,本章将在 Python 环境中探索 BigQuery API。
BigQuery API 部署选项
就像开发人员无法直接从 BigQuery Studio 部署 SQL 一样,对于生产工作流,访问 BigQuery API 的代码必须通过相关的 GCP 产品进行部署。
部署选项包括 −
- Cloud Run
- Cloud Functions
- Virtual Machines
- Cloud Composer (Airflow)
BigQuery API 需要身份验证
使用 BigQuery API 需要身份验证 −
- 如果在本地运行脚本,则可以下载与运行 BigQuery 的服务帐户关联的凭据文件,然后将该文件设置为环境变量。
- 如果在连接到云的环境中运行 BigQuery,例如在 Vertex AI 笔记本中,则会自动进行身份验证。
为了避免下载文件,GCP 还支持大多数应用程序的 Oauth2 身份验证 流程。
经过身份验证后,典型的 BigQuery API 用例包括 −
- 运行包含给定 CRUD 操作的 SQL 脚本表。
- 检索项目或数据集元数据以创建监控框架。
- 运行 SQL 查询以使用来自其他来源的数据合成或丰富 BigQuery 数据。
".query()"方法
毫无疑问,最流行的 BigQuery API 方法之一是".query() 方法"。与 Pandas 的 .to_dataframe() 搭配使用时,它提供了一个强大的选项,用于以可读形式查询和显示数据。
此查询应获取以下 输出 −
BigQuery API 不是黑匣子。除了日志记录(使用 Google Cloud Logging 客户端)之外,开发人员还可以在 UI 中查看按个人用户和项目级别细分的实时作业信息。要解决任何失败的作业问题,这应该是您的第一站。