Snowflake - 从文件加载数据

在数据库中,创建模式,即表的逻辑分组。表包含列。表和列是数据库的低级和最重要的对象。现在,表和列最重要的功能是存储数据。

在本章中,我们将讨论如何将数据存储到 Snowflake 中的表和列中。

Snowflake 为用户提供了两种使用用户界面和 SQL 查询将数据存储到表和相应列中的方法。

使用 Snowflake 的 UI 将数据加载到表和列中

在本节中,我们将讨论使用 CSV、JSON、XML、Avro、ORC、Parquet 等文件将数据加载到表及其相应列中应遵循的步骤。

此方法仅限于加载最多 50 MB 的少量数据。

以任何格式创建示例文件。创建文件时,请确保文件和表中的列数匹配,否则操作将在加载数据时失败。

在 TEST_DB.TEST_SCHEMA.TEST_TABLE 中,有三列:ID、NAME 和 ADDRESS。

以下示例数据是在"data.csv"中创建的 −

ID NAME ADDRESS
1 aa abcd
2 ab abcd
3 aa abcd
4 ab abcd
5 aa abcd
6 ab abcd
7 aa abcd
8 ab abcd
9 aa abcd

现在,单击顶部功能区中的 DATABSES 图标。单击要上传数据的表名称。它显示列数和定义。

以下屏幕截图显示了"加载数据"功能 −

加载数据功能

根据列重新验证示例文件。单击列名称顶部的 加载表 按钮。它会弹出"加载数据"对话框。在第一个屏幕上,选择仓库名称并单击 下一步 按钮。

加载数据弹出窗口

在下一个屏幕上,单击 选择文件 从本地计算机中选择一个文件。文件上传后,您可以看到文件名,如以下屏幕截图所示。单击下一步按钮。

选择文件

现在单击+ 号创建文件格式,如以下屏幕截图所示 −

文件格式

弹出创建文件格式对话框。输入以下详细信息 −

  • 名称 − 文件格式的名称。

  • 架构名称 −创建的文件格式只能在给定的架构中使用。

  • 格式类型 − 文件格式的名称。

  • 列分隔符 − 如果 CSV 文件是分隔的,请提供文件分隔符。

  • 行分隔符 − 如何识别新行。

  • 要跳过的标题行 − 如果提供了标题,则为 1,否则为 0。

其他内容可以保留原样。输入详细信息后,单击完成按钮。

以下屏幕截图显示上述详细信息 −

文件格式详细信息

从下拉列表中选择文件格式,然后单击加载,如以下屏幕截图所示 −

单击加载

加载结果后,您将获得摘要,如下所示。单击确定按钮。

单击确定

要查看数据,请运行查询"SELECT * from TEST_TABLE"。在左侧面板中,用户还可以看到数据库、模式和表的详细信息。

运行查询

使用 SQL 将数据加载到表和列中

要从本地文件加载数据,您可以执行以下步骤 −

使用 Snowflake 提供的插件 SnowSQL 将文件上传到 Snowflake 的阶段。要执行此操作,请转到 help 并单击下载,如下所示 −

转到帮助并单击下载

单击 CLI 客户端 (snowsql),然后单击 Snowflake 存储库,如下图所示 −

单击 CLI 客户端

用户可以移动到 bootstrap → 1.2 → windows_x86_64 →点击下载最新版本。

以下屏幕截图显示上述步骤 −

Snowflake Repository

现在,安装下载的插件。安装后,在系统中打开 CMD。运行以下命令检查连接 −

snowsql -a <account_name> -u <username>

它会要求输入密码。输入您的 Snowflake 密码并按 ENTER。您将看到成功连接。现在使用命令行 −

<username>#<warehouse_name>@<db_name>.<schema_name>

现在使用以下命令将文件上传到 Snowflake 阶段 −

PUT file://C:/Users/*******/Documents/data.csv @csvstage;

不要忘记在末尾加上"分号",否则它将永远运行。

文件上传后,用户可以将以下命令运行到工作表中 −

COPY INTO "TEST_DB"."TEST_SCHEMA_1"."TEST_TABLE" FROM @/csvstage ON_ERROR = 'ABORT_STATEMENT' PURGE = TRUE

日期将加载到表中。