Apache顶级项目介绍系列-1,我们从Kafka说起。why?流行 + 名字cool。
Kafka官网是见过比较简单,直叙的网站,“kafka是一个高吞吐的分布式的消息系统”。 Kafka最初起家于LinkedIn,当时原本作为linkedin用来管理活动流(PV,用户行为分析,搜索情况)和运营数据处理的pipline的基础。
因为其分布式以及高吞吐被广泛使用,如与Cloudera, Hadoop, Storm, Spark etc.
kafka首先作为一个消息系统,提供了基本功能,如解耦,顺序性,异步性等。同时优质的设计理念支撑高吞吐,提供O(1)时间负责度持久化能力,数据级别达到TB/PB以上,支持离线与实时处理,即与hadoop,storm对接,支持水平scale out。
架构图:
我们来建一个kafka集群服务:
kafka之所以高效或者其创新点:
消息删除管理
通常消息中间件会消费一个消息,删除一个消息,这使得消息的使用代价非常高额。而kafka使用无状态管理,引入消息偏移量,消息基于时间的SLA应用保留策略,当消息超过一定时间后才被删除,这样按照官网的说法,消费Kafka消息就是非常轻量级:come and go. 听起来像外卖一样,take and go. 甚至,由于引入偏移量,消费者可以随意获取任意位置消息,包括重新获取已经消费过的消息。
Kafka利用linux sendfile从linux kernel复制文件
kafka引入zk,管理分布式协调,HA,容错。zk用来管理kafaka代理broker,当kafka新增或者某代理失效, zk服务将通知生产者与消费者。
生产者性能,消息结构优化大小以及批量发送
消费这性能:消息结构优化以及无状态引入便宜量,无需为何b+树索引。
总体来说kafka表现异常突出,不失为通常消息中间件的代替品,如果管理hadoop,stream更是首推。另外如果处理网站日志,用户使用行为分析,或者离线处理log等都是不二之选。
联系客服