大数据和Hadoop:简介

大数据
后台-插件-广告管理-内容页头部广告(手机)

在这篇文章中,工程师提供了大数据和Apache Hadoop世界的入门级外观。如果您对这项技术不熟悉或只是想要复习,请继续阅读!

一个非常常见的误解是大数据是一些技术或工具。实际上,大数据是一个非常大的异构数据集。这些数据更多地采用非结构化或半结构化形式,因此提取有用信息非常困难。随着云技术的发展,数据的生成速度也大大增加。

 

因此,我们需要一种解决方案,使我们能够以最佳速度处理此类“大数据”,并且不会影响数据安全性。有一组技术可以解决这个问题,其中最好的技术是Hadoop。

“Hadoop如何为大数据问题提供解决方案?” 这是一个常见的问题。答案是:

  • Hadoop使用数据在多个系统节点上而不是在一台机器上的块中存储数据。这允许分离关注点,容错和增加数据安全性。
  • 在将数据存储在其中之前不需要定义的模式。RDBMS系统的一个主要缺点是它适用于预定义的模式结构,这种模式结构可以灵活地远离用户来存储不同类型的数据。
  • Hadoop的另一个特点是它为用户带来了处理能力。在Hadoop中,处理器被用于数据而不是从一个系统传送到另一个系统的数据。由于存在分布式体系结构,因此最终用户可以灵活地增加任意数量的节点。

这一切都有助于Hadoop成为可靠,经济(RAID比本地节点更昂贵),可扩展且灵活的系统。

Hadoop由两个主要组件组成,即节点和资源管理器。

  • 节点(名称节点和数据节点):
  • 名称节点充当主节点,并包含在数据节点上处理的所有元数据。通常,系统中只有一个名称节点,但可以根据您的要求增加其编号。数据节点是实际处理发生的真实站点工作者。这里,数据驻留并在处理后存储。名称节点仅包含数据节点的映射和一大块数据。
  • 资源管理器(MapReduce和YARN):
  • 资源管理器包含处理数据所需的算法。这是Hadoop的核心,其中编写了用于处理的业务逻辑。
  • MapReduce包含两个作业,即map和reduce。“'Map'是指获取一组数据并将其转换为另一组数据,其中各个元素被分解为键/值对。'Reduce'是指将地图输出作为输入并组合这些数据元组进入一组较小的元组。“(来源: 关于MapReduce的IBM页面这里要注意的重要一点是减少作业总是在地图作业之后执行。另一个可以与MapReduce一起使用或作为独立资源使用的资源管理器是YARN。YARN代表Yet Another Resource Negotiator,是一种资源管理和作业调度技术。IBM在其文章中提到,“根据雅虎的说法,这种设计的实际限制是通过5000个节点的集群和40,000个同时运行的任务来实现的。” 除了这种限制之外,计算资源的利用在MRV1中是低效的。此外,Hadoop框架仅限于MapReduce处理范例。根据Hortonworks的说法,“YARN还将Hadoop的强大功能扩展到数据中心内的现有技术和新技术,以便他们可以利用经济高效的线性规模存储和处理。” 它为ISV和开发人员提供了一个用于编写在Hadoop中运行的数据访问应用程序的一致框架。YARN解除了MapReduce的资源管理和作业调度。YARN开始为Hadoop提供在Hadoop框架内运行非MapReduce作业的能力。
后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。