数据仓库 - 备份
数据仓库是一个复杂的系统,包含大量数据。 因此,备份所有数据非常重要,以便将来可以根据需要进行恢复。 本章我们将讨论备份策略设计中的问题。
备份术语
在继续操作之前,您应该了解下面讨论的一些备份术语。
完整备份 − 它同时备份整个数据库。 此备份包括所有数据库文件、控制文件和日志文件。
部分备份 − 顾名思义,它不会创建数据库的完整备份。 部分备份在大型数据库中非常有用,因为它们允许采用一种策略,即每天以循环方式备份数据库的各个部分,以便整个数据库每周有效备份一次。
冷备份 − 冷备份是在数据库完全关闭的情况下进行的。 在多实例环境中,应关闭所有实例。
热备份 − 热备份是在数据库引擎启动并运行时进行的。 不同的RDBMS对热备份的要求不同。
在线备份 − 与热备份非常相似。
硬件备份
决定使用哪个硬件进行备份非常重要。 处理备份和恢复的速度取决于所使用的硬件、硬件的连接方式、网络带宽、备份软件以及服务器 I/O 系统的速度。 在这里,我们将讨论一些可用的硬件选择及其优缺点。 这些选择如下 −
- 磁带技术
- 磁盘备份
磁带技术
磁带选择可分为以下几类 −
- 磁带介质
- 独立磁带机
- 磁带堆叠器
- 磁带孤岛
磁带介质
存在多种磁带介质。 下表列出了一些磁带介质标准 −
磁带介质 | 容量 | I/O 速率 |
---|---|---|
DLT | 40 GB | 3 MB/s |
3490e | 1.6 GB | 3 MB/s |
8 mm | 14 GB | 1 MB/s |
其他需要考虑的因素如下 −
- 磁带介质的可靠性
- 每单位磁带介质的成本
- 可扩展性
- 磁带系统升级成本
- 每单位磁带介质的成本
- 磁带介质的保质期
独立磁带机
磁带机可以通过以下方式连接 −
- 直接连接到服务器
- 作为网络可用设备
- 远程连接到其他机器
将磁带驱动器连接到数据仓库时可能会出现问题。
假设服务器是一台 48 节点 MPP 机器。 我们不知道连接磁带驱动器的节点,也不知道如何将它们分布在服务器节点上,以获得最佳性能,同时最大限度地减少服务器中断和内部 I/O 延迟。
将磁带机连接为网络可用设备需要网络能够承受巨大的数据传输速率。 确保在您需要时有足够的带宽可用。
远程连接磁带驱动器也需要高带宽。
磁带堆栈器
将多个磁带加载到单个磁带驱动器中的方法称为磁带堆栈器。 堆栈器在完成当前磁带后将其卸下并加载下一磁带,因此一次只能访问一盘磁带。 价格和功能可能有所不同,但共同的功能是它们可以执行无人值守的备份。
磁带仓
磁带仓提供大存储容量。 磁带仓可以存储和管理数千个磁带。 它们可以集成多个磁带驱动器。 他们拥有软件和硬件来标记和存储他们存储的磁带。 通过网络或专用链路远程连接筒仓是很常见的。 我们应该确保连接的带宽能够满足工作要求。
磁盘备份
磁盘备份的方法有 −
- 磁盘到磁盘备份
- 断开镜像
这些方法用于OLTP系统中。 这些方法可以最大限度地减少数据库停机时间并最大限度地提高可用性。
磁盘到磁盘备份
这里的备份是在磁盘上而不是在磁带上进行的。 进行磁盘到磁盘备份的原因如下 −
- 初始备份速度
- 恢复速度
将数据从磁盘备份到磁盘比备份到磁带要快得多。 但这是备份的中间步骤。 随后将数据备份到磁带上。 磁盘到磁盘备份的另一个优点是它为您提供最新备份的在线副本。
断开镜像
这个想法是在工作日对磁盘进行镜像以实现弹性。 当需要备份时,可以断开其中一个镜像集。 此技术是磁盘到磁盘备份的一种变体。
注意 − 可能需要关闭数据库以保证备份的一致性。
光盘库
光盘库允许数据近线存储。 该技术允许以与磁带堆垛机或磁带仓相同的方式管理大量光盘。 这种技术的缺点是写入速度比磁盘慢。 但光学介质具有长寿命和可靠性,使其成为归档介质的良好选择。
软件备份
有一些软件工具可以帮助备份过程。 这些软件工具作为一个软件包提供。 这些工具不仅可以进行备份,还可以有效地管理和控制备份策略。 市场上有许多软件包。 其中一些列于下表中 −
Package Name | Vendor |
---|---|
Networker | Legato |
ADSM | IBM |
Epoch | Epoch Systems |
Omniback II | HP |
Alexandria | Sequent |
选择软件包的标准
下面列出了选择最佳软件包的标准 −
- 随着磁带驱动器的添加,产品的可扩展性如何?
- 该软件包是否具有客户端-服务器选项,还是必须在数据库服务器本身上运行?
- 它可以在集群和 MPP 环境中工作吗?
- 需要什么程度的并行性?
- 该软件包支持哪些平台?
- 该软件包是否支持轻松访问有关磁带内容的信息?
- 软件包数据库是否可用?
- 该软件包支持哪些磁带机和磁带介质?