Apache Flink - 批处理与实时处理
就大数据而言,有两种处理类型 −
- 批处理
- 实时处理
基于一段时间内收集的数据进行的处理称为批处理。 例如,银行经理想要处理过去 1 个月的数据(随着时间的推移收集),以了解过去 1 个月内被取消的支票数量。
基于即时数据进行即时结果的处理称为实时处理。 例如,银行经理在欺诈交易(即时结果)发生后立即收到欺诈警报。
下表列出了批处理和实时处理之间的差异 −
批处理 | 实时处理 |
---|---|
静态文件 |
事件流 |
按分钟、小时、天等定期处理 |
立即处理 纳秒 |
磁盘存储上的过去数据 |
内存存储 |
示例 − 账单生成 |
示例 − ATM 交易提醒 |
如今,每个组织都大量使用实时处理。 安全检测、医疗系统中的实时警报和网络攻击警报等用例需要实时处理即时数据; 即使是几毫秒的延迟也会产生巨大的影响。
对于这种实时用例来说,理想的工具是能够以流而非批的形式输入数据的工具。 Apache Flink 就是那个实时处理工具。