大数据有哪些开源的框架和组件值得我们学习?

大数据
后台-插件-广告管理-内容页头部广告(手机)

大数据平台

Hadoop

 
离线数据的分布式存储和计算基础框架 分布式存储HDFS离线计算引擎MapReduce资源调度Apache YARN

CDH

 
基于稳定版Hadoop及相关项目最成型的发行版本, 成为企业部署最广泛的大数据系统可视化的UI界面中方便的管理配置和监控Hadoop以及其它所有相关组件简单来说将十几个hadoop开源项目集成在一起

HDP

基于hadoop生态系统开源组件构建的大数据分析平台

集群管理与监控

Cloudera Manager

 
用于部署和管理CDH集群的软件 
Hadoop平台的管理软件,具备Hadoop组件的安装、管理、运维 

文件系统

HDFS

 
分布式文件系统 

资源调度

YARN

hadoop的资源管理和作业调度系统 

协调框架

Zookeeper

 分布式协调服务,解决分布式数据一致性方案 实现诸如数据发布订阅、负载均衡、命名、集群管理 master节点管理 分布式锁和分布式队列

数据存储

Hbase

 
分布式面向列的NoSQL开源数据库

Cassandra

分布式的混合NoSQL数据库 ,还有C++版本ScyllaDB

MongDB

面向文档的开源分布式数据库

Redis

 
开源的支持网络,基于内存可持久化日志,key-value数据库,可用于数据库缓存消息中间件

Neo4j

开源高性能的NoSQL图形数据库

数据处理

MapReduce

分布式离线的计算框架批处理 日渐被spark和flink取代 

Spark

 
通用的一站式计算框架SparkCore批处理SparkSQL交互式处理SparkStreaming流处理Spark Graphx图计算Spark MLlib机器学习 

Flink

 
流处理和批处理分布式数据处理框架 核心是一个流式的数据流执行引擎 类似于Spark批处理数据流处理交互处理图形处理和机器学习

Storm

 
分布式实时大数据处理系统毫秒级别的实时数据处理能力 实时分析的领导者 

数据查询分析

Hive

基于hadoop的数据仓库,结构化SparkSQL处理结构化数据的spark组件分布式的SQL查询引擎

Impala

实时交互SQL大数据查询引擎

Druid

实时大数据分析引擎

Elastic Search

 
分布式可扩展的实时搜索和分析引擎,基于Apache Lucene搜索引擎

数据收集

Flume

 
分布式海量日志采集、聚合和传输系统

Logstash

具有实时管道功能的开源数据收集引擎

数据交换

sqoop

数据迁移工具,用来在不同数据存储软件之间进行数据传输的开源软件

DataX

阿里巴巴开源的离线数据同步工具,用于实现包括关系型数据库(MySQL、Oracle等)HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步

消息系统

Pulsar

企业级分布式消息系统,有替代Kafka的趋势

Kafka

 
发布/订阅的消息系统,由Scala写成

RocketMQ

阿里巴巴分布式、队列模型的消息中间件

任务调度

Azkaban

批量工作流任务调度器,将所有正在运行的工作流的状态保存在其内存

Oozie

基于Hadoop的企业级工作流调度框架将所有正在运行的工作流的状态保存SQL数据库Cloudeara贡献给Apache的顶级项目

数据治理

Ranger

Hadoop 平台上并提供操作、监控、管理综合数据安全的框架提供一个集中的管理机制,所有数据权限

Sentry

Hadoop集群元数据和数据存储提供集中、细粒度的访问控制项目

数据可视化

Kibana

 
用于和 Elasticsearch 一起使用的开源的分析与可视化平台

数据挖掘

Mahout

基于hadoop的机器学习和数据挖掘的一个分布式框架

Spark MLlib

Spark的机器学习库

MADlib

基于SQL的数据库内置的可扩展的机器学习库

云平台技术

AWS S3

一种对象存储服务,提供行业领先的可扩展性、数据可用性、安全性和性能存储和保护各种用例数据

GCP

Google提供的一套云计算服务注册一个帐号,在分布在全球各地数十个google机房使用所有的基础架构服务
后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。