Apache Presto - 概述
数据分析是分析原始数据以收集相关信息以做出更好决策的过程。 它主要在许多组织中用于制定业务决策。 那么,大数据分析涉及大量数据,这个过程非常复杂,因此公司使用不同的策略。
例如,Facebook 是全球领先的数据驱动型和最大的数据仓库公司之一。 Facebook 仓库数据存储在 Hadoop 中以进行大规模计算。 后来,当仓库数据增长到 PB 级时,他们决定开发一个延迟更低的新系统。 2012 年,Facebook 团队成员设计了用于交互式查询分析的"Presto",即使处理 PB 级的数据也能快速运行。
什么是 Apache Presto?
Apache Presto 是一个分布式并行查询执行引擎,针对低延迟和交互式查询分析进行了优化。 Presto 可以轻松运行查询,并且可以在不停机的情况下进行扩展,甚至可以从 GB 扩展到 PB。
单个 Presto 查询可以处理来自多个源的数据,例如 HDFS、MySQL、Cassandra、Hive 和更多数据源。 Presto 采用 Java 构建,易于与其他数据基础设施组件集成。 Presto 功能强大,Airbnb、DropBox、Groupon、Netflix 等领先公司都在采用它。
Presto - 功能
Presto 包含以下功能 −
- 简单且可扩展的架构。
- 可插拔连接器 - Presto 支持可插拔连接器来为查询提供元数据和数据。
- 流水线执行 - 避免不必要的 I/O 延迟开销。
- 用户定义函数 - 分析师可以创建自定义用户定义函数以轻松迁移。
- 矢量化列式处理。
Presto - 好处
Apache Presto 是 Apache Presto 最受欢迎的功能之一 −
- 专门的 SQL 操作
- 易于安装和调试
- 简单的存储抽象
- 以低延迟快速扩展 PB 级数据
Presto - 应用程序
Presto 支持当今大多数最好的工业应用程序。 让我们看一下一些值得注意的应用程序。
Facebook − Facebook 构建 Presto 是为了满足数据分析需求。 Presto 可以轻松扩展高速数据。
Teradata − Teradata 提供大数据分析和数据仓库的端到端解决方案。 Teradata 对 Presto 的贡献使更多公司能够更轻松地满足所有分析需求。
Airbnb − Presto 是 Airbnb 数据基础设施不可或缺的一部分。每天都有数百名员工使用该技术运行查询。
为什么是 Presto?
Presto 支持标准 ANSI SQL,这使得数据分析师和开发人员变得非常容易。 尽管它是用 Java 构建的,但它避免了与内存分配和垃圾收集相关的 Java 代码的典型问题。 Presto 具有 Hadoop 友好的连接器架构。 它允许轻松插入文件系统。
Ready 可在多个 Hadoop 发行版上运行。 此外,Presto 可以从 Hadoop 平台查询 Cassandra、关系数据库或其他数据存储。 这种跨平台分析功能使 Presto 用户能够从 GB 到 PB 的数据中提取最大的业务价值。