Hadoop - 大数据概述

“世界上 90% 的数据是在过去几年中产生的。”

由于新技术、新设备和社交网站等通信手段的出现,人类产生的数据量每年都在快速增长。 从一开始到 2003 年,我们产生的数据量是 50 亿千兆字节。 如果你以磁盘的形式堆积数据,它可能会填满整个足球场。 在 2011 中每两天创建相同的数量,在 2013 中每 10 分钟创建一次。 这个比率仍在大幅增长。 尽管产生的所有这些信息都是有意义的,并且在处理时很有用,但它被忽略了。


什么是大数据?

大数据是无法使用传统计算技术处理的大型数据集的集合。 它不是单一的技术或工具,而是一个完整的学科,涉及各种工具、技术和框架。


什么是大数据?

大数据涉及不同设备和应用程序产生的数据。 下面给出了一些属于大数据保护伞的领域。

  • 黑盒数据 − 它是直升机、飞机、喷气式飞机等的部件。它捕捉飞行机组的声音、麦克风和耳机的录音,以及飞机的性能信息。

  • 社交媒体数据 − Facebook 和 Twitter 等社交媒体拥有全球数百万人发布的信息和观点。

  • 证券交易所数据 − 证券交易所数据包含有关客户对不同公司的股份做出的"买入"和"卖出"决策的信息。

  • 电网数据 − 电网数据保存特定节点消耗的关于基站的信息。

  • 运输数据 − 运输数据包括车辆的型号、容量、距离和可用性。

  • 搜索引擎数据 − 搜索引擎从不同的数据库中检索大量数据。

大数据

因此,大数据包括海量、高速和可扩展的各种数据。 其中的数据将分为三种类型。

  • 结构化数据 − 关系数据。

  • 半结构化数据 − XML 数据。

  • 非结构化数据 − Word、PDF、文本、媒体日志。


大数据的好处

  • 使用 Facebook 等社交网络中保存的信息,营销机构正在了解他们的活动、促销和其他广告媒体的反应。

  • 使用社交媒体中的信息,例如消费者的偏好和产品认知,产品公司和零售组织正在规划他们的生产。

  • 使用有关患者既往病史的数据,医院可以提供更好、更快捷的服务。


大数据技术

大数据技术对于提供更准确的分析非常重要,这可能会导致更具体的决策制定,从而提高运营效率、降低成本并降低业务风险。

要利用大数据的力量,您需要一个能够实时管理和处理大量结构化和非结构化数据并保护数据隐私和安全的基础架构。

市场上有来自不同供应商(包括亚马逊、IBM、微软等)的各种技术来处理大数据。 在研究处理大数据的技术时,我们研究了以下两类技术 −

运营大数据

这包括像 MongoDB 这样的系统,它们为主要捕获和存储数据的实时、交互式工作负载提供操作能力。

NoSQL 大数据系统旨在利用过去十年中出现的新云计算架构,以允许廉价且高效地运行大规模计算。 这使得运营大数据工作负载更易于管理、更便宜且实施更快。

一些 NoSQL 系统可以基于实时数据以最少的编码提供对模式和趋势的洞察,而无需数据科学家和额外的基础设施。

分析大数据

其中包括大规模并行处理 (MPP) 数据库系统和 MapReduce 等系统,它们为可能涉及大部分或全部数据的回顾性和复杂分析提供分析能力。

MapReduce 提供了一种分析数据的新方法,它补充了 SQL 提供的功能,以及一个基于 MapReduce 的系统,可以从单台服务器扩展到数千台高端和低端机器。

这两类技术是互补的,并且经常一起部署。


运营与分析系统

运营 分析
延迟 1 毫秒 - 100 毫秒 1 分钟 - 100 分钟
并发 1000 - 100,000 1 - 10
访问模式 写入和读取 读取
查询 选择性 非选择性
数据作用域 运营 追溯
最终用户 消费者 数据科学家
技术 NoSQL MapReduce、MPP 数据库

大数据挑战

与大数据相关的主要挑战如下 −

  • 采集数据
  • 管理
  • 存储
  • 搜索
  • 分享
  • 转移
  • 分析
  • 演示文稿

为了应对上述挑战,组织通常会借助企业服务器。