Apache Flink - Flink/Spark/Hadoop 的比较
这里有一个综合表格,显示了三种最流行的大数据框架之间的比较:Apache Flink、Apache Spark 和 Apache Hadoop。
Apache Hadoop | Apache Spark | Apache Flink | |
---|---|---|---|
起源年份 |
2005 | 2009 | 2009 |
起源地 |
MapReduce(谷歌)Hadoop(雅虎) | 加州大学伯克利分校 | 柏林工业大学 |
数据处理引擎 |
批量 | 批量 | 流 |
处理速度 |
比 Spark 和 Flink 慢 | 比 Hadoop 快 100 倍 | 比 Spark 更快 |
编程语言 |
Java、C、C++、Ruby、Groovy、Perl、Python | Java、Scala、Python 和 R | Java 和 Scala |
编程模型 |
MapReduce | 弹性分布式数据集 (RDD) | 循环数据流 |
数据传输 |
批量 | 批量 | 管道式和批量式 |
内存管理 |
基于磁盘 | JVM 托管 | 主动托管 |
延迟 |
低 | 中 | 低 |
吞吐量 |
中 | 高 | 高 |
优化 |
手册 | 手册 | 自动 |
API |
低级 | 高级 | 高级 |
流媒体支持 |
不适用 | Spark 流 | Flink 流 |
SQL 支持 |
Hive, Impala | SparkSQL | Table API and SQL |
图形支持 |
不适用 | GraphX | Gelly |
机器学习支持 |
不适用 | SparkML | FlinkML |