管理进化

数据仓库有哪些


数据仓库有:1. pandas:数据分析类库;2. QueryEngine数据仓库;3. Spark数据仓库;4. Olap;5. Hive。

1.  pandas:数据分析类库

pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。panel data是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。

2. QueryEngine

QueryEngine 是百度大数据部门QueryEngine团队开发的一个高可用的类SQL 计算服务。该服务旨在开发并为用户提供一个高级的数据处理语言及服务,使得用户可以简单、方便、灵活地表达自己的数据处理逻辑。目前QueryEngine支持两个后端,一个是基于开源社区版Hive0.8.0重构的厂版Hive,一个是基于C++自研的Wing[QueryEngine引擎之Wing],两者在使用上并无差别,并且高度兼容HQL(SQL),但却不受限于HQL与SQL的声明式语法。在效率与可维护性上,Wing具有更大的优势。QueryEngine 目前支持交互式和批处理两种使用方式。在交互式下,用户输入一个语句,就解释执行一个语句并返回结果;在批处理模式下,用户将自己的程序逻辑写在一个文件中,通过客户端提交给服务,服务会保证整个程序逻辑的执行。

3. Spark

整个集群分为 Master 节点和 Worker 节点,相当于 Hadoop 的 Master 和 Slave 节点。

Master 节点上常驻 Master 守护进程,负责管理全部的 Worker 节点。

Worker 节点上常驻 Worker 守护进程,负责与 Master 节点通信并管理 executors。

Driver 官方解释是 “The process running the main() function of the application and creating the SparkContext”。Application 就是用户自己写的 Spark 程序(driver program),比如 WordCount.scala。如果 driver program 在 Master 上运行,比如在 Master 上运行./bin/run-example SparkPi 10。

4. Olap

一个基于hadoop的数据仓库, 它基于hadoop(HIVE, HBASE)水平扩展的特性, 客服传统olap受限于关系型数据库数据容量的问题. Kylin是ebay推出的olap星型数据仓库的开源实现.

首先请安装Kylin, 和它的运行环境(Hadoop, yarn, hive, hbase). 如果安装成功, 登陆(http://<KYLIN_HOST>:7070/), 用户名:ADMIN, 密码(KYLIN). 安装过程请参考(http://kylin.incubator.apache.org/download/,  注意下载编译后的二进制包, 免去很多编译烦恼)。

5. Hive

hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。

智齿客服