kafka是干嘛的

2022-01-21 · Worktile 项目协作工具

Kafka是一种分布式的，基于发布/订阅的消息系统，使用Scala编写，它以可水平扩展和高吞吐率而被广泛使用。它是用作LinkedIn的活动流（Activity Stream）和运营数据处理管道（Pipeline）的基础。

一、 kafka研发背景

afka的诞生，是为了解决linkedin的数据管道问题，期初linkedin采用了ActiveMQ来进行数据交换，大约是在2010年前后，那时的ActiveMQ还远远无法满足linkedin对数据传递系统的要求，经常由于各种缺陷而导致消息阻塞或者服务无法正常访问，为了能够解决这个问题，linkedin决定研发自己的消息传递系统，当时linkedin的首席架构师jay kreps便开始组织团队进行消息传递系统的研发；。

二、 kafka的设计目标

① 使用推送和拉取模式实现生产者和消费者的解耦；

② 微消息系统中的消息提供数据持久化，以便支持多个消费者；

③ 系统可以随着数据流的增长进行横向扩展；

④ 通过系统优化实现高吞吐量；

三、 kafka的应用场景

① 跟踪：kafka可以用于跟踪用户浏览页面、搜索及其他行为。通过发布-订阅模式实时记录到对应的topic中，通过后端大数据平台接入处理分析，并做更进一步的实时处理和监控

② 日志收集：日志收集方面，有很多比较优秀的产品，比如Apache Flume，很多公司使用kafka代理日志聚合。日志聚合表示从服务器上收集日志文件，然后放到一个集中的平台（文件服务器）进行处理。很多公司的套路都是把应用日志集中到kafka上，然后分别导入到es和hdfs上，用来做实时检索分析和离线统计数据备份等。而另一方面，kafka本身又提供了很好的api来集成日志并且做日志收集。

四、基本概念解释

① Broker：

Kafka集群包含一个或多个服务器，这种服务器被称为broker。broker端不维护数据的消费状态，提升了性能。直接使用磁盘进行存储，线性读写，速度快，避免了数据在JVM内存和系统内存之间的复制，减少耗性能的创建对象和垃圾回收。

② Consumer：

消息消费者，向Kafka broker读取消息的客户端，consumer从broker拉取(pull)数据进行处理。

③ Consumer Group：

每个Consumer属于一个特定的Consumer Group（可为每个Consumer指定group name，若不指定group name则属于默认的group）

④ Topic：

每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic。（物理上不同Topic的消息分开存储，逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的Topic即可生产或消费数据而不必关心数据存于何处）

项目

目标

网盘

消息

日历

客户端下载

企业微信

项目管理

目标管理

敏捷开发

公司管理

市场营销

产品管理

IT研发与运维

人事行政

互联网

专业服务

电商

制造

建筑设计

全部

帮助中心

敏捷和 OKR 咨询

开发者

博客

合作伙伴

客户案例

更新日志

模板市场

关于我们

投资者关系

联系我们

kafka是干嘛的

一、 kafka研发背景

二、 kafka的设计目标

三、 kafka的应用场景

四、 基本概念解释

相关阅读

敏捷开发的框架是什么

OKR落地的关键是什么

企业都在用哪些较好用看板管理工具软件

四、基本概念解释