加米谷大数据学习—Flume介绍

大数据
后台-插件-广告管理-内容页头部广告(手机)

相信大家对Hadoop、spark这些都不陌生,这些作为大数据的核心模块,接触的是最多的。而今天我们就来了解一下Flume。

 

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统,Flume可以采集文件,将采集好的文件输出到HDFS、hbase、hive、kafka等众多外部存储系统中。

下面我们就来具体的了解一下Flume:

1、Flume的架构

 

Flume是有source、channel、sink组成,传输过程:日志源-->source-->channel-->sink-->HDFS

Source::采集源,用于跟数据源对接,以获取数据;

Sink::下沉地,采集数据的传送目的,用于往下一级agent传递数据或者往最终存储系统传递数据;

Channel : angent内部的数据传输通道,用于从source将数据传递到sink。

2、Flume多个agent串联

 

3、agent的配置文件

A.需要定义agent的名字,还需要定义source,channel,sink(名字,有几个)

B.需要对source,channel,sink指明具体的类型和配置

C.需要指明source,channel,sink三者之间的一个关系

 

注意:一个sink只能对应一个channel,一个channel可以对应多个sink

以上就是对Flume的介绍了,希望对大家能有所帮助,如果想了解更多详情,请点击成都加米谷大数据官网吧!

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。