近年来,大数据技术掀起了计算机领域的一个新浪潮,无论是数据挖掘、数据分析、数据可视化,他们都绕不开"数据"这个主题。企业每年会产生海量的数据,如何从海量数据中挖掘有价值的数据成为大数据研究的一个重点。基于ETL(Extract-Transform-Load)的数据清洗是挖掘有价值的数据方案之一。
目前比较流行的ETL工具有:
1 Pentaho Kettle
2 Hawk
3 Informatica PowerCenter
4 DataStage
1、Pentaho Kettle
Pentaho Kettle是一款国外免费开放的ETL工具,纯Java语言编写的,可以在Windows、Linux、UNIX系统上运行,并且是绿色的无需安装的。能把来自不同数据源中的数据放到一个”壶“里,然后以一种指定的格式流出。本软件可免费下载使用 。
2、Hawk
Hawk是一种数据采集和清洗工具,依据GPL(GNU通用公共许可证)协议开源,基于C#语言编写的,前端界面使用WPF开发,支持插件扩展。能有效地采集网页 、数据库和文件等来源数据。主要应用爬虫和数据清洗领域。本软件收费,无免费下载。
3、lnformatica Powercenter
lnformatica Powercenter 是 lnformatica公司开发的世界级的企业数据集成平台,也是业界领先的ETL工具,可以访问和集成几乎任何业务系统、任何格式的数据,具有高性能、高可扩展性、高可用性特点。核心功能包括数据清洗和匹配、数据屏蔽、数据验证、元数据交换等。本软件收费,无免费下载。
4、DataStage
DataStage是IBM 的 infosphere datastage 简称,也是一个领先ETL平台,可支持跨多个企业系统的集成数据,它支持HBase 、Hive、Amazon以及MongoDB数据库连接,可以灵活、有效的更新和管理数据继承,可以在云平台或者本地部署。本软件收费,无免费下载。
评论留言