hive与传统数据库的区别

小编 4年前 TOP1 1349

hive与传统数据库的区别是，Hive是建立在Hadoop之上的，所有的Hive的数据都是存储在HDFS中的。而数据库则可以将数据保存在块设备或本地文件系统中；Hive中没有定义专门的数据格式，由用户指定，需要指定三个属性：列分隔符，行分隔符，以及读取文件数据的方法。数据库中，存储引擎定义了自己的数据格式。所有数据都会按照一定的组织存储。

1.Hive是什么

基于Hadoop的开源数据仓库工具，用于存储和处理海量结构化数据

Hive把HDFS中结构化的数据映射成表

Hive通过把HiveSQL进行解析和转换，最终生成一系列基于hadoop的map/reduce任务，通过执行这些任务完成数据处理

2.HiveSQL与传统SQL的比较

查询语言不同：HiveSQL是HQL语言，传统SQL是SQL语句；

数据存储位置不同：HiveSQL是把数据存储在HDFS上，而传统SQL数据是存储在块设备或者本地文件；

数据格式：HiveSQL数据格式可以用户自定义，传统SQL有自己的系统定义格式(不同的数据库有不同的存储引擎)；如: 年龄字段age在Hive中可以定义为INT,STRING,DOUBLE,定义什么型都可以,即使为STRING也可以做运算(加减乘除),在SQL只能存为数值型,STRING型排序规则是按照名列前茅个字符进行排序

数据更新：hive不支持数据记录更新，只可以读，不可以写，而sql支持数据更新；如: 只改某一条数据的某个字段值, 在Hive中是不可以的, 只能将整个表重新导入更新

索引：hive没有索引，因此查询数据的时候是通过mapreduce很暴力的把数据都查询一遍，也造成了hive查询数据速度很慢的原因，而mysql有索引；

延迟性：hive延迟性高，原因就是上边一点所说的，而mysql延迟性低；

数据规模：hive存储的数据量超级大，而mysql只是存储一些少量的业务数据；

底层执行原理：hive底层是用的mapreduce(启动需要时间准备)，而mysql是excutor执行器；

可扩展性：HiveSQL高而传统SQL较低

3.Hive的优势

把海量数据存储于 hadoop 文件系统，而不是数据库，但提供了一套类数据库的数据存储和处理机制，并采用 HQL (类 SQL )语言对这些数据进行自动化处理

不仅提供了一个熟悉SQL的用户所能熟悉的编程模型，还消除了大量的通用代码，甚至那些有时是不得不使用Java编写的令人棘手的代码

学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce 应用，十分适合数据仓库的统计分析，应用开发灵活而高效

最后，推荐我们的管理工具给大家。