大数据etl工具有哪些

小编 1174

大数据etl工具有:1.Kettle;2.Apache StreamSets;3.Datastage;4.Informatica;5.Scriptella;6.DataBeam。Kettle中文名称叫水壶,是一款采用java语言编写的开源的etl工具,可以在Window、Linux、Unix.上运行。

1.Kettle

Kettle是一款国外开源的ETL工具,使用Java语言编写,可以运行在Windows、Linux、Unix上,数据抽取高效、稳定。Kettle包含Spoon、Pan、Chef、Encr和Kitchen等组件,Spoon是一个图形用户界面,可以方便直观地完成数据转换任务。Spoon可以运行转换和任务,转换用Pan来运行,任务用Kitchen运行。

2.Apache StreamSets

Apache StreamSets是一个大数据实时采集ETL工具,可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面,实现数据管道(Pipelines)的设计和定时任务调度。

数据源支持MySQL、Oracle等结构化和半/非结构化,目标源支持HDFS、Hive、Hbase、Kudu、Solr、Elasticserach等。创建一个Pipelines管道需要配置数据源(Origins)、操作(Processors)、目的地(Destinations)三部分。

3.Datastage

Datastage是IBM公司的商业软件,很专业的ETL工具,可跨多个企业系统集成数据,能帮助企业从散布在各个系统中的复杂异构信息中获得更多价值。Datastage全部的操作在同一个界面中,不用切换界面,能够看到数据的来源,整个job的情况,在找bug的时候会比Informatica方便。但该工具的技术支持比较少,使用难度较大,尤其价格也比较昂贵,中小公司不是很建议使用,

4.Informatica

Informatica是全球名列前茅的数据管理软件提供商。在如下Gartner魔力象限位于名列前茅地位:数据集成工具魔力象限、数据质量工具魔力象限、元数据管理解决方案魔力象限、主数据管理解决方案魔力象限、企业级集成平台即服务(EiPaaS)魔力象限。

5.Scriptella

Scriptella 是一个开源的ETL (抽取-转换-加载)工具和一个脚本执行工具,采用Java 开发。Scriptella 支持跨数据库的ETL 脚本,并且可以在单个的ETL 文件中与多个数据源运行。Scriptella 可与任何JDBC / ODBC 兼容的驱动程序集成,并提供与非JDBC 数据源和脚本语言的互操作性的接口。它还可以与Java EE,Spring,JMX,JNDI 和JavaMail 集成。

6.DataBeam

DataBeam是新一代数据建设与分析产品,以图形化、搭积木的方式进行数据处理与分析。相比写代码的传统的数据开发模式,DataBeam的积木式拖拽开发效率更高,“零代码”的形式也让其非常易于上手,学习成本低。

此外,DataBeam也支持多种异构数据源,在一个平台上就能完成数据输入、清洗、统计、AI建模,可以很好的解决企业数仓开发成本高、交付周期长、维护成本高等问题。

延伸阅读

etl是什么意思

etl是英文Extract-Transform-Load的缩写,是描述数据获得之后,经过抽取(extract)、转换(transform)、加载(load)到目的地的一种过程。etl将数据库和各种形式的数据组合到一个统一的视图中,这样可以更轻松地查找数据并进行有意义的业务分析。因此,这是目前比较全面的一种企业数据处理技术。

etl也是在企业中经常被用到的一种辅助决策数据处理技术。在企业的经营活动中会产生大量的数据,这些数据有的是有用的,有的是没有用的,经过etl的自动抽取后,会把没有用的数据过滤掉一部分。同时etl技术还会把企业内部比较零散的数据统一到一起,用比较统一的方法来进行分析,起到帮助企业做出正确决策的目的。

etl是大数据(BI)项目重要的一个环节,其设计的好坏影响生成数据的质量,直接关系到BI项目的成败。

回复

我来回复
  • 暂无回复内容

站长微信
站长微信
电话联系

400-800-1024

工作日9:30-21:00在线

分享本页
返回顶部