BigQuery - Google Cloud 层次结构

在继续之前,重要的是要掌握与 BigQuery 及其相关流程相关的基本概念和词汇。

首先,重要的是要了解,尽管云计算提供了几乎无限的处理能力,但如果要求 BigQuery 用户执行以下活动,他们仍会遇到问题 −

  • 执行计算繁重的 SQL 操作,如交叉连接或笛卡尔连接。
  • 尝试运行大型查询而不指定目标表。
  • 在高峰使用时运行大型查询(如果以企业用户身份使用 BigQuery)。
  • 按需或"临时"查询可能会造成僵局,尤其是在与计划的进程争夺执行时隙时。

Google Cloud层次结构

如果您预计在 BigQuery 中创建和填充数据源,请务必注意 Google Cloud 层次结构 −

  • 组织
  • 项目
  • 数据集

1. 组织层

除非您是帐户所有者、高管或决策者,否则您不太可能需要担心组织层。将其视为包含您在浏览 BigQuery Studio 和在 SQL 环境中编写 SQL 查询时会遇到的其他元素的实体。

2. Google Cloud 组织内的多个项目

任何 Google Cloud 组织都可以有多个项目。有时公司或企业用户(我们在此特意避免使用"组织"一词以避免混淆)会创建不同的项目来区分暂存环境和生产环境。

其他时候,这些高级用户会创建不同的项目,以便更好地控制潜在的敏感数据,如个人身份信息 (PII) 和机密收入信息。

无论哪种情况,当您开始使用 BigQuery 时,您都会创建或获得以具有特定权限和角色范围的用户身份访问 BigQuery 的权限。

3. 项目中的数据集和表

在项目中,要记住的最重要的实体是数据集和表。需要澄清的是,数据集包含一个表多个表。为了在技术讨论中保持准确性,请尽量避免互换使用这些术语。

您将在数据集中看到的其他元素包括 −

  • 例程
  • 模型
  • 视图

这些额外的数据元素将在以下章节中进行更深入的讨论。