BigQuery 教程

BigQuery 教程

云计算知识已成为整个数据科学工作领域的一项要求。从"数据分析师"到"数据工程师"的每个角色都需要具备云计算的基本知识。与微软和亚马逊网络服务 (AWS) 一样,Google Cloud Platform (GCP) 是最受欢迎的云平台之一。掌握 GCP 工具,尤其是 SQL 引擎(如 BigQuery)对于开始或发展面向数据的职业生涯至关重要。

MySQL 或 Postgre 等本地化 SQL 工具不同,Google BigQuery 利用云计算的强大功能让用户能够与大量数据进行交互并无缝地扩展。BigQuery 的 SQL 方言有一些怪癖,使其有别于 PostgreSQL 等传统方言,但是,了解如何编写高效查询并了解"幕后"发生的事情将使 BigQuery 用户能够快速获得熟练程度。

关于 BigQuery 教程

本教程的目的是让读者通过使用 BigQuery Studio、BigQuery 的 SQL 引擎和其他外部 Google Cloud 集成来熟悉 BigQuery 的基本概念。本教程涵盖了从初始设置到创建数据集和表再到创建和运行复杂 SQL 脚本的所有内容。

除了动手实践的 SQL 概念之外,学习者还将更好地了解 BigQuery"幕后"的架构和设计,以及这种设计如何使用户能够创建、查询和操作大型数据集。

本教程还将讨论业务用例以及 BigQuery 作为数据仓库解决方案的可行候选者的相关性。

谁应该使用 BigQuery 教程?

BigQuery 教程旨在让广泛的学习者都能访问。该受众将包括数据分析师、数据科学家、数据工程师、软件工程师和在工作中使用数据和 SQL 引擎的业务领导者。

希望深入了解云计算与 SQL 结合的开发人员也可以从本教程中受益。虽然本教程面向初学者,但它也可以增强中级用户和在职专业人士的理解。

读者的平均经验水平会有所不同,但通常从本教程中受益最多的人是学生、实习生或初级开发人员。

学习 BigQuery 的先决条件

对于本教程,我们假设您具有 SQL、云计算和数据分析的基础知识。

尽管 SQL 在本教程中占据突出地位,但以下章节旨在介绍 BigQuery 作为BI工具,并不专门教授 SQL。因此,SQL 的基本知识是本教程和学习 BigQuery 的先决条件。

然而,即使具备 SQL 知识,也需要注意的是,BigQuery 有自己的 SQL 方言,函数和语法可能有所不同。由于 BigQuery 是 Google Cloud Platform 上的应用程序,因此强烈建议任何学习 BigQuery 的人都熟悉或有云计算概念方面的经验。

BigQuery 常见问题解答

在本节中,我们收集了一组有关 BigQuery 的常见问题及其答案 −

1. 什么是 Google BigQuery?

Google BigQuery 是 Google Cloud Platform 的无服务器 SQL 引擎和数据仓库解决方案。它主要可通过 Google Cloud Console 中的 BigQuery Studio 访问。

通过各种方法,BigQuery 允许用户使用无服务器云基础架构即时查询、创建和操作数据集。因此,学生、专业人士和组织能够以几乎无限的规模存储和分析数据。

2.为什么要使用 BigQuery?

SQL 和云计算是初级数据科学家、数据工程师、数据分析师和软件开发人员最需要和最畅销的两项技能。

Google Cloud 是全球最大、最知名的云供应商之一。了解 BigQuery SQL 可以帮助初级开发人员学习或完善技能,从而找到工作并帮助构建企业级数据基础架构。

企业领导者应强烈考虑将 BigQuery 作为构建和改进现有数据基础架构的可行选择;对于那些希望从本地 (on-prem) 设置迁移到云基础架构的公司来说尤其如此。

3. BigQuery 的主要功能是什么?

BigQuery 的主要功能是其 SQL 环境 BigQuery Studio。BigQuery 的功能还包括与现有产品的集成,例如 Google Sheets、Google Cloud Storage、gcloud 命令行界面 (CLI) 工具和 BigQuery API

BigQuery 还包括通过 BigQuery 数据传输服务自动从上游 Google Cloud 源传输数据的服务。BigQuery 允许创建和促进计划查询、创建视图以及将视图转换为物化视图。

4.对于初学者来说,学习 BigQuery 的最佳方式是什么?

对于初学者来说,学习 BigQuery 的最佳方式是通过实践经验,就像本教程所说明和鼓励的那样。对于 BigQuery 初学者,Google Cloud Platform 提供对公共数据集的访问,并为考虑使用该平台的用户提供 3 个月的初始试用期。

Google Cloud Platform 还为有兴趣学习 BigQuery 的初学者创建了学习资源。这些学习资源包括 Google Qwiklabs、实践学习练习以及有关 BigQuery 流程和语法的大量文档。

5. BigQuery 如何存储数据?

BigQuery 是一个 SQL 数据库,它以结构化方式存储数据(而不是非结构化数据)。 BigQuery 是一种列式数据存储,这意味着数据存储在列中,用户可以根据需要访问、操作和添加/删除这些列。

BigQuery 的数据存储还允许开发人员将数据存储在分区中,分区是按日期等字段划分的数据"部分"。

6. BigQuery 如何处理安全性?

BigQuery 与现有的 Google Cloud Platform 功能集成以保护数据。随着数据隐私成为数据科学领域越来越重要的主题,BigQuery 为用户提供了多种保护敏感数据的方法。

BigQuery 允许用户设置策略标签以指示特定字段(列)是否包含个人身份信息 (PII)。BigQuery 还允许项目所有者分配权限和角色,以限制对潜在敏感数据的访问。

7. 使用 BigQuery 时,我需要了解 Google Cloud Storage (GCS) 吗?

使用存储在 BigQuery 中的数据时,了解 Google Cloud Storage (GCS) 不是先决条件。但是,了解云存储的原理以及外部存储的具体情况和限制有助于理解 BigQuery 的"内部工作原理"。

此外,了解 Google Cloud Storage 可以让用户更好、更无缝地将存储在 Cloud Storage 中的数据与 BigQuery 集成。了解 Cloud Storage 可以帮助开发人员更快地了解如何将 Google Sheets 和其他外部集成与 BigQuery 连接起来。