Hadoop - 大数据解决方案

传统的解决方案

通过这种方法,企业将拥有一台计算机来存储和处理大数据。 出于存储目的,程序员将借助他们选择的数据库供应商,如 Oracle、IBM 等。在这种方法中,用户与应用程序交互,而应用程序反过来处理数据存储和分析的部分。

大数据传统方法

局限性

这种方法适用于那些处理较少量数据的应用程序,这些数据可以由标准数据库服务器容纳,或者达到处理数据的处理器的限制。 但在处理海量可扩展数据时,通过单个数据库瓶颈处理此类数据是一项繁重的任务。


谷歌的解决方案

Google 使用一种称为 MapReduce 的算法解决了这个问题。 该算法将任务分成小部分,分配给多台计算机,并从中收集结果,整合后形成结果数据集。

谷歌的解决方案

Hadoop

Doug Cutting 和他的团队使用 Google 提供的解决方案开发了一个名为 HADOOP 的开源项目。

Hadoop 使用 MapReduce 算法运行应用程序,数据与其他算法并行处理。 简而言之,Hadoop 用于开发能够对海量数据进行完整统计分析的应用程序。

Hadoop 框架