Doris 由 Frontend(以下简称FE)和 Backend(以下简称BE)组成,其中FE负责接受用户请求、编译、优化、分发执行计划、元数据管理、BE节点的管理等功能,BE负责执行由FE下发的执行计划,存储和管理用户数据。
一、性能优异
自带高效的列式存储引擎,减少数据扫描量的同时还实现了超高的数据压缩比。同时 Doris 还提供了丰富的索引结构来加速数据读取与过滤,利用分区分桶裁剪功能,Doris 可以支持在线服务业务的超高并发,单节点较高可支持上千 QPS。更进一步,Apache Doris 结合了向量化执行引擎来充分发挥现代化 CPU 并行计算能力,辅以智能物化视图技术实现预聚合加速,并可以通过查询优化器同时进行基于规划和基于代价的查询优化。通过上述多种方式,实现了极致的查询性能。
二、简单易用
支持标准 ANSI SQL 语法,包括单表聚合、排序、过滤和多表 Join、子查询等,还支持窗口函数、Grouping Set 等复杂 SQL 语法,同时用户可以通过 UDF 和 UDAF 等自定义函数来拓展系统功能。除此以外,Apache Doris 还实现了 MySQL 协议兼容,用户可以通过各类客户端工具来访问 Doris,并支持与 BI 工具的无缝对接。
三、架构精简
系统只有两个 Frontend(FE)和 Backend(BE)两个模块,其中 FE 节点负责用户请求的接入、查询计划的解析、元数据存储及集群管理等工作,BE 节点负责数据存储和查询计划的执行,自身就是一个完备的分布式数据库管理系统,用户无需安装任何第三方管控组件即可运行起 Apache Doris 集群,并且部署和升级过程都非常简易。同时,任一模块都可以支持横向拓展,集群较高可以拓展到数百个节点,支持存储超过 10PB 的超大规模数据。
四、稳定可靠
支持数据多副本存储,集群具备自愈功能,自身的分布式管理框架可以自动管理数据副本的分布、修复和均衡,副本损坏时系统可以自动感知并进行修复。节点扩容时,仅需一条 SQL 命令即可完成,数据分片会自动在节点间均衡,无需人工干预或操作。无论是扩容、缩容、单节点故障还是在升级过程中,系统都无需停止运行,可正常提供稳定可靠的在线服务。
五、生态丰富
提供丰富的数据同步方式,支持快速加载来自本地、Hadoop、Flink、Spark、Kafka、SeaTunnel 等系统中的数据,也可以直接访问 MySQL、PostgreSQL、Oracle、S3、Hive、Iceberg、Elasticsearch 等系统中的数据而无需数据复制。同时存储在 Doris 中的数据也可以被 Spark、Flink 读取,并且可以输出给上游数据应用进行展示分析。
延伸阅读
OLAP数据库评测标准
- TPC-H:TPC-H基准模拟商务采购应用,其数据库模式包含8张表,分别代表参与商业领域中 采购和订购的对象或行为。性能评测基准定义了22个复杂查询语句和2个更新数据语句。 数据 库的规模由标度因子决定,从1GB到100TB不等。 TPC-H基准以每小时内执行的查询数作为度 量标准。
- TPC-DS:TPC-DS基准定义了3个主要度 量和4个辅助度量,主要度量包括: 1.每小时内执行完毕的查询树,已描述查询吞吐率;2.每小 时内执行的查询数的性价比;3.系统生效日期,及所有在测组件全部生效的日期。
- JOB: 主要用于连接顺序的选择,对数据库系统的查询效率有重要影响。 在评价数据库对连 接顺序的优化效率时,可以使用JOB(Join Order Benchmark)进行评测。
文章标题:Doris相较于OLAP数据库系统有什么优点,发布者:E.Z,转载请注明出处:https://worktile.com/kb/p/61379