数据工程 - 数据存储

数字信息有两种类型:输入数据和输出数据。用户提供输入数据,而计算机生成输出数据。CPU 需要用户输入才能执行计算并产生输出。

用户必须手动将数据输入计算机,这既耗时又低效。为了解决这个问题,随机存取存储器 (RAM) 被用作短期解决方案。RAM 的存储容量和保留时间有限。只读存储器 (ROM) 只能读取和编辑数据,用于控制计算机的基本功能。

尽管随着动态 RAM (DRAM) 和同步 DRAM (SDRAM) 的发展,计算机内存取得了进步,但这些技术仍然受到成本、空间和内存保留的限制。当计算机断电时,RAM 会丢失数据。

通过数据存储,用户可以将数据保存在设备上,确保即使计算机断电也能保留数据。用户无需手动输入数据,而是可以指示计算机从存储设备中检索信息。计算机可以从各种来源读取数据并将其保存到相同或不同的存储位置。此外,用户可以与他人共享数据。

关系数据库

关系数据库是将数据组织成预定义关系的信息集合。数据存储在一个或多个具有行和列的表中,因此很容易理解不同数据结构之间的关系。关系是表之间的逻辑连接,基于它们的交互而建立。

以下是小型企业可能用来处理其产品订单的两个表的简单示例。第一个表是客户信息表,其中每个记录包括客户的姓名、账单信息、地址、电话号码和其他联系方式。每条信息都在其自己的列中,数据库为每一行分配一个唯一的 ID。在第二个表(客户订单表)中,每条记录都包含下订单的客户的 ID、订购的产品、质量、所选的尺寸和颜色等,但不包括客户姓名或联系信息。

关系模型将逻辑数据结构与物理存储结构分开。这样,数据库管理员就可以管理物理存储而不会影响数据访问。

分离也适用于数据库操作。逻辑操作指定内容,而物理操作确定如何访问和检索数据。

为了保持数据的准确性和可访问性,关系数据库遵循完整性规则。例如,一条规则可能会阻止表中的重复行,以避免数据不一致。

NoSQL 数据库

NoSQL 数据库旨在处理大量非结构化和半结构化数据。与具有预定义方案的传统关系数据库不同,NoSQL 数据库使用灵活的数据模型,可以适应变化并水平扩展以管理不断增加的数据量。这分为四个主要类别 −

  • 键值存储

  • 列族存储

  • 图形数据库

  • 文档数据库

NoSQL 数据库通常用于处理大量数据的应用程序,例如社交媒体、游戏和电子商务。实时处理和分析很困难。它们还用于其他应用程序,例如内容管理系统和文档管理。